登录
首页精彩阅读差异表达与聚类分析
差异表达与聚类分析
2018-06-09
收藏

差异表达与聚类分析

在鉴定出ncRNA后,我们如何推断其可能的生物学功能呢?首先对于miRNA等作用机制比较清楚的ncRNA,我们可以参考其作用机制,利用碱基互补等方式预测其靶标,并进而推断其生物学功能。然而,对于longnon-coding RNA等具体作用机制尚待明确的非编码RNA,这个方法就不适用了。这时,我们可以根据在表达调控网络中,表达相关的基因往往具有功能相似性这一特征,利用表达相关来推断其功能。具体来说,在实际研究中,我们主要关注两类表达关联,在不同条件下差异表达的基因,以及不同条件下共表达的基因。

在不需要考虑实验误差的理想世界里,差异表达基因检测是很容易的。我们只需要直接比较不同条件下检测出的表达量数值即可。然而,在现实世界中,情况要复杂的多。事实上,在真实的实验过程中,由于随机误差(andomerror)的存在,我们得到的测量值永远是一个分布而非一个定值。因此,不同条件下基因表达水平的比较实质上是对两个分布的比较,换句话说,除了均值之外,我们还需要考虑方差的影响。我们需要利用统计学的方法,基于概率模型进行统计推断。具体来说,我们需要构建一个考虑方差的统计量(tatistic),而后基于这个统计量的零分布(NULLdistribution)来计算每个基因的p-value,最后选择小于给定cut-off p-value的基因作为有统计显著性差异表达的基因。
针对RNA-Seq数据的特定,不同研究组基于Possion,二项分布等构造了不同的统计量和差异表达计算的方法。由于这些方法基于不同的假设,其零分布之间也存在显著的差异,从而导致了最终的p-value乃至calling结果的差异。为了便于选择合适的方法。OoronBetel等人基于多组数据集对常用的差异表达工具进行了系统评估。p-value本质上对统计错误可能性的一个概率表示。具体来说,我们在实际中可能会碰到两类错误,一类错误又称假阳性错误,指实际并没有差异表达的基因错当成了有差异表达的基因,二类错误又称假阴性错误,值实际表达有差异的基因错当成了没有差异表达。

  一般来说,我们会用p-value表示一次检验中发生一类错误--也就是假阳性的错误--的概率。在实践中,我们通常对多个基因重复进行统计检验。这时就碰到多重检验问题(multipletestinglssue).例如,我们对20个不同的基因一次进行统计检验,每次检验的p-value都为0.05,那么也就是说,我们每次犯错误的概率是0.05,我们不犯错误的概率是0.95,根据乘法原理,连续20次不犯错误的概率就是0.95的20次方,约0.358。我们至少犯一次错误的概率是1-0.358=0.642.也就是说,即使每次出错的概率都是0.05,但20次最终任由超过一半的概率至少犯一次错误。这就是所谓的multipletesting issue.为了解决这个问题,最简单的办法就是将p-value的cut-off改的更严。例如,Bonferronicorrection中,会将检验得到的原始p-value乘以检验进行的次数。因此,假如,我们对人类基因组3万个基因只在原始p-value小于0.05/30000=1.67*10^-6时才将之作为差异表达基因。就可以确保及时在最糟糕的情况下,也可以确保假阳性错误发生的概率小于0.05.然而,在实践中Bonferronicorrection往往过于严格了。为了确保降低假阳性而抬高了假阴性错误发生的概率,从而降低了统计检验的效力(power).同时,相对于全体进行统计检验的基因,我们在实际研究中往往更关心在已经被标记为差异表达的记忆中,有多少假阳性的基因。换句话说,我们关心的是FDR而不是FWER.这时,可以将p-value转变为q-value.类似于p-value,q-value也是对统计错误可能性的表示(measure).然而,于p-value不同的是,q-value衡量的是FalseDISCOVERYRate,对于给定的基因G,q-value给出的是在和基因g一样或更显著的差异基因群体中,假阳性发生的比率。
对于差异表达类似,在不同条件下共表达的关系也可以用来推断基因的功能。对不同条件下多个基因的表达进行聚类分析(clustering)可以帮助快速的选择共表达基因。正确的聚类分析,不但有助于推断基因的功能,还可以有效的发现基因之间存在的调控关系。距离度量是聚类方法的核心。这里的距离度量,是指用来衡量两个基因的表达模式之间的相似程度。常用的距离衡量有欧式距离,又称绝对距离;和Peason距离,又称关联距离。其中欧式距离关心的是表达量,也就是两个基因在表达水平之间的相似程度。而相关性距离则是关心的是表达模式,也就是两个基因在表达变化上的一致性。不同的距离度量,可以得到迥然不同的结果。
由于共表达通常是指表达的变化趋势,因此在实际分析中关联距离使用的频率更高一些。在应用Pearson距离时,也要注意utlier对它的影响。由于Pearson距离以来于群体水平的协方差,如果有一些特殊的outlier,会对最终的结果产生极大的影响。


数据分析咨询请扫描二维码

客服在线
立即咨询