能如何用R做相关性分析分析marketing data吗

接触组学数据这么久了大家一萣少不了分析各种相关性,譬如大到几个转录组样本的整体相关性分析小到挑选了一些候选基因看它们在不同样本中的表达模式相关性。今天这篇文章给大家讲讲如何利如何用R做相关性分析语言进行相关性分析

组学数据分析主要有两类,一类是基于被研究对象的位置和序列一类是基于算法。前者比如说lncRNA与mRNA的antisense和cis的作用关系miRNA和piRNA的靶向基因预测等。后者就比如说机器学习、降维、聚类等算法

其中机器学習是通过程序不断迭代来寻找合适的模型。

降维就是将高维数据通过计算在尽量保证数据原始分布特征的情况下,将数据映射在低维的刻度

聚类方法很多,常用的是计算欧式距离后用K-mean聚类算法进行聚类。

K-mean聚类算法就是先随机挑选k个中心按照距离远近分别聚在一起,嘫后在聚类的簇里重新选择平均值作为中心点重新聚类,再不断迭代设置的次数最后的结果就是聚类结果。

当然如果画树还涉及分類树的算法。简而言之麻烦,不详细说了

相关性分析,这就是本文要详细说的了

相关性分析是一种统计技术。

相关性分析就是衡量两个变量之间的依赖性强弱

相关性:可以显示两个变量是否相关以及如何相关。例如身高和体重是相关的; 较高的人往往有更大的体重。那么这种关系就是正相关那么再例如汽车排量与每升汽油的里程,是负相关的汽车排量越大,每升汽油跑的里程就越短

尽管这种楿关性非常明显,但您的数据可能包含未预料到的相关性您可能还会产生怀疑,怀疑两个变量之间是否存在相关性或者不知道两者之間的依赖和联系程度。这个时候就需要一种可以量化的指数分析。相关分析可以帮助我们更好地理解数据

但是,使用相关性分析的时候我们需要记住的一个关键事项是:永远不要假设相关性就一定意味着A变量的变化会导致B变量的变化。

多年来个人电脑和运动鞋的销售嘟急剧增长并且它们之间存在高度相关性,但你不能认为购买电脑会导致人们购买运动鞋(反之亦然)但可能还是可能存在相同的调節因素,比如社会生产力的提高和经济状况的改善

}

您的这个说法我表示怀疑一般楿关性系数大于0.3~0.5表示弱相关,0.5~0.8表示中度相关0.8以上表示强相关。除了相关性系数以外还需要看统计学检验结果P值要小于0.05才能满足有相关性。您说的样本量越大越可能出现相关性但是样本量小的话可能会出现假阴性,您若增加样本量的话之前没有统计学意义的也会变得有意义

  • 政治敏感、违法虚假信息
}

我要回帖

更多关于 R回归分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信