标准化单细胞RNA测序数据—陷阱和建议

作者&投稿:酉倪 (若有异议请与网页底部的电邮联系)
~

博文名称:Normalizing single cell RNA sequencing data — Pitfalls and Recommendations
博文链接: https://towardsdatascience.com/normalizing-single-cell-rna-sequencing-data-pitfalls-and-recommendations-19d0cb4fc43d
博文发表时间:Jan 29, 2020

单细胞RNA测序(scRNA-seq)的目的通常是亚群鉴定和差异基因表达分析。 为避免“维度灾难”(curse of dimensionality),将高可变基因 (HVG) 用于聚类分析。 多项研究表明,HVG对原始计数矩阵标准化方法的选择很敏感。

原始read计数不能直接用于比较细胞之间的基因表达,因为它们会被实验技术和“无趣”的生物变异所混淆(干扰)。 通过QC质控步骤和其他方法可用于过滤和回归无趣的生物变异。 虽然PCR扩增偏差通常可以通过使用唯一分子标识符 (UMI) 来处理,但需要标准化以消除其他技术引起的变异,如测序深度、细胞裂解和逆转录效率的差异。

标准化(Normalization)处理的主要目标是消除技术效应的影响,同时保留真正的生物学异质性。在标准化处理良好的数据集中,一个基因的方差应该与细胞的基因丰度和测序深度无关。 “真正”差异表达的基因应该在不同细胞类型之间表现出高差异,而看家基因应该表现出低差异。

因此,标准化是一个关键的预处理步骤,它会极大地影响scRNA分析的下游应用。 不幸的是,scRNA数据集通常沿用从bulk RNA-seq继承的方法进行标准化,但是,由于技术性质的差异和这些数据集的固有复杂性,我们很快就会看到这些方法是不合适的。

在这篇博文中,我们将看到全局缩放方法(global scaling methods)在scRNA-seq分析中的局限性。 我们还将讨论最近推出的SCNorm和SCTransform归一化方法的潜力优势,这些方法专为单细胞分析量身定制。

传统上,使用RPKM(每千碱基百万读取数)、FPKM(每千碱基百万片段)或 TPM(每百万转录本)方法将跨细胞的原始表达计数通过测序深度进行标准化。 要了解它们的工作原理,请观看此 视频 。 虽然这些方法适用于样本内标准化,但它们已广泛认为不适合样本之间的差异表达分析。

例如,考虑在两个处理条件—对照组和治疗组之间,比较两个基因A和 基因B的表达的情况。 基因A在两种处理下的表达水平相同,而基因B在处理组中细胞的表达水平高出2倍。 TPM归一化将绝对表达值转化为相对表达值,因此,我们可能会得出结论,如果基因B在两组间是差异表达的,那么基因A也是差异表达的。

基于基因集的方法为了解决全局缩放方法的固有问题,最近引入了两种有趣的归一化方法 - SCnorm (2017) 和 SCTransform (Seurat package v3, 2019)。

SCnorm 是 Bioconductor上的R包。 对于每个基因,SCnorm通过分位数回归(quantile regression)估计基因表达对测序深度的依赖性。 然后将具有相似依赖性的基因进行分组,并使用第二个分位数回归来估计每组的缩放因子( scale factors)。 最后使用每个组特定的缩放因子调整每个基因集的测序深度,以生成标准化的基因表达估计。

单个细胞数据集( Bacher et al )中3个基因表达
A:原始计数与测序深度,B:标准化的全局缩放因子与测序深度,C:SCnorm计数与测序深度
上图显示来自单个样本的细胞数据集中三个基因的计数深度关系。 图 A 是未标准化或原始表达计数。 很明显,与图C 中的 SCnorm 相比,基于全局缩放因子的方法(图 B)在标准化方面做得很差。

SCTransform 是可用于Seurat v3的R包。 该方法使用正则化负二项式模型(regularized negative binomial model)对UMI计数进行建模,以消除因测序深度引起的变化。 简而言之,该方法首先使用测序深度作为自变量和UMI计数作为响应或因变量为每个基因构建广义线性模型 (GLM)。 然后根据基因表达对参数估计进行正则化(或调整)。 使用正则化参数应用第二轮负二项式回归。 该模型的输出(残差)是每个基因的标准化表达水平。

这里的关键信息是,SCnorm 和 SCTransform 方法都学习基因集( gene-group )特定的因素,而不是使用常数因子来标准化所有基因。 这些因素分别针对低、中和高表达基因,消除了技术变异的影响,同时保留了真正的生物异质性。

归一化方法的选择会影响高变异基因的选择,从而影响scRNA数据的所有下游分析。 直接将bulk RNA-seq的归一化方法应用于scRNA数据集是不合适的。 推荐通过选择SCNorm或SCTransform归一化方法来更新分析流程并充分利用最新的技术方法是值得的。

在RNA-Seq的分析中,对基因或转录本的read counts数目进行标准化(normalization)非常重要,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。一个基因越长,测序深度会越高,落在其内部的read counts数目就会相对越多。因此,我们使用相对测量,而不是绝对测量。

因此,我们需要标准化的两个关键因素就是基因长度和测序深度,常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作为标准化数值。

计算RPKM主要包括以下三步:

其中:

FPKM与RPKM的计算过程相同,它们的区别是:RPKM用于单端测序结果,FPKM用于双端测序结果(如图2所示)。因为双端测序中,每一个fragment会包含两个reads,使用FPKM来计算基因的表达丰度时,可以避免把同一个fragment的两个reads计算两次(实际上只需要计算一次)。

单端read与双端read比对到基因组的示意图所示:

TPM与RPKM最大的区别在于消除两种影响的次序:在TPM中先消除基因长度的影响,再消除测序深度的影响。计算TPM的过程也可以分为三个步骤:

计算公式表示如下:

其中:

因为交换了两次计算的次序,TPM最终得到的结果中,每个样本总的TPM值是相同的,这样的结果便于样本间差异的比较。

有以下RNA-seq数据,测定了A、B、C、D四个基因,长度分别是2、4、1、10kb,共测定了3个生物重复:Rep1、Rep2、Rep3。

第一步,计算总Read数
由于只有4个基因,所以总Read数并没有太大,因此使用10模拟百万进行总read换算。

第二步:标准化总Read数
将Rep1、Rep2、Rep3除以各自换算后的总Read数(也就是3.5,4.5,10.6),得到RPM:

RPKM是先进行测序深度标准化,后进行基因长度标准化;而TPM是先进行基因长度标准化,后进行测序深度标准化 。事实证明,TPM的标准化方法更有优势,为何会这样,见后述。这里先看看TPM的计算。

第一步:进行基因长度标准化。先将基因A、B、C、D的Read数除以各自的基因长度(基因长度单位kb),得到RPK。

详见黄树嘉的《 为什么说FPKM和RPKM都错了 ?》

TPM的归一化考虑了基因长度和测序深度,而seurat的归一化没有考虑基因长度,只考虑了测序深度,为什么不需要考虑基因的长度?
每个归一化方法内在的考虑因素不相同,TPM考虑了基因长度,基因越长,落在基因序列上的reads数量也相应越多。
归一化还跟它要解决的问题相关。

10X官方也答复了该问题:
https://kb.10xgenomics.com/hc/en-us/articles/115003684783-How-to-calculate-TPM-RPKM-or-FPKM-instead-of-counts -

答:在10x Genomics基因表达分析中,每个转录本都标记有唯一的分子标识符(UMI)序列。这些UMI能够准确定量基因表达水平,因为我们可以判断哪些read是由相同的mRNA分子产生的。因此,Cell Ranger和Space Ranger执行UMI计数(非read计数)以测量基因表达水平,并且所有下游分析步骤均基于UMI计数执行。

传统的RNA-seq数据中,完整的转录本被片段化,随后是cDNA合成、末端修复和接头连接。在此实验流程中,从长转录本中提取fragment片段的概率高于从短转录本中提取的概率。因此,TPM、RPKM、FPKM通过转录本长度(基因的长度)对read计数进行标准化是有意义的。然而,在10x基因表达分析中,这种基因长度偏差并不存在。因此,我们不建议通过基因长度使UMI计数标准化。

10X单细胞测序的UMI标签,消除PCR扩增的偏好性;

参考:
https://www.plob.org/article/16013.html
https://www.cnblogs.com/Belter/p/13205635.html
https://www.jianshu.com/p/1940c5954c81?from=groupmessage
https://www.jianshu.com/p/35e861b76486
https://bioinfo.umassmed.edu/content/pdf2016fall/normalization.pdf
https://www.cnblogs.com/emanlee/p/14933354.html




标准化单细胞RNA测序数据—陷阱和建议
直接将bulk RNA-seq的归一化方法应用于scRNA数据集是不合适的。 推荐通过选择SCNorm或SCTransform归一化方法来更新分析流程并充分利用最新的技术方法是值得的。 在RNA-Seq的分析中,对基因或转录本的read counts数目进行标准化(normalization)非常重要,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。一...

单细胞RNA测序
单细胞RNA测序是一种前沿技术,它通过解析单个细胞的基因表达,揭示了个体细胞间的多样性与复杂性。让我们一起踏上这段探索之旅,从实验流程图的视角理解每个步骤的精密操作,它描绘了从采样到测序的全貌,包括细胞的分选、转录组的捕获和测序的执行,每一个环节都至关重要。数据的解读关键在于理解那些关...

深度好文 | 单细胞RNA测序技术简介
对肿瘤组织进行单细胞测序以对肿瘤微环境进行更加精准的刻画;(iii)其他疾病研究。对正常组织和疾病组织进行单细胞测序,以研究致病通路、鉴定新的疾病标志物以及可能的治疗靶标等。

生命科学单细胞测序(10×genomics技术)的原理是什么?
单细胞 RNA 测序(Single cell RNA sequencing,scRNA-seq)是一种在单细胞水平上利用 RNA 测序对特定细胞群体进行基因表达谱定量的高通量实验技术。待测组织经过单细胞分离、RNA 提取、逆转录、文库构建和测序,便可利用数据分析获得多个细胞的基因表达谱。1.单细胞测序与普通转录组测序的区别 普通转录组...

6.单细胞 RNA-seq:归一化和 PCA 分析
假设您正在处理 12,000 个细胞 的单细胞 RNA-seq 数据集,并且您已经量化了 20,000 个基因的表达 。计算 PC 分数后,您会看到一个 12,000 x 12,000 的矩阵,该矩阵表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以二维方式绘制它们。您还可以使用前 40 个 PC 的 PC ...

单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (上篇)_百度...
在做单细胞测序的之前,需要对细胞进行裂解。不同的细胞组织,裂解条件也会不一样。如果裂解条件过于严格,就会影响文库制备。构建文库同时加入浓度已知的spike-in,其中包括:Spike-ins 的用途 1.去除技术噪音 2.检测捕获效率 3.计算RNA的起始量 4.数据的normalization Spike-ins的问题 ...

单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (下篇)_百度...
核糖体RNA占比较高时,可能是因为细胞内出现了较多的RNA降解。在全长单细胞转录组中,3’ 偏好性可用于检测细胞内是否存在大量RNA降解。在上图中,我们对细胞中基因的数量、唯一比对率、基因body比对率、spike_detection等绘制分布图,然后剔除不合格细胞,将能够通过上述所有质控标准的细胞保留下来、用于...

单细胞测序 rna-seq 哪个更准
单细胞测序和RNA-seq是应用在不同研究中的两种测序类型,只看适不适合,没有那个更准的问题,单细胞测序主要应用在细胞分化、发生、发展、演化过程中的突变等,如癌症的组织差异性,干细胞的分化、细胞重编程及转分化等过程及相关的基因调节网络等,单细胞测序也有全基因组测序和转录组测序两种;RNA-seq...

完整的单细胞分析流程——数据标化(normalization)
通常在单细胞RNA测序数据中观察到文库之间测序覆盖率的系统差异。它们通常是由细胞间的cDNA捕获或PCR扩增效率方面的技术差异引起的,这归因于用最少的起始材料难以实现一致的文库制备。标准化旨在消除这些差异,以使它们不干扰细胞之间表达谱的比较。这样可以确保在细胞群体中观察到的任何异质性或差异表达都是由生物学而不...

scRNA-seq和snRNA-seq有什么区别?
在单细胞研究的舞台上,scRNA-seq(单细胞RNA测序)与snRNA-seq(单核RNA测序)像是两把利剑,各自瞄准不同的挑战。scRNA-seq因其广泛的应用范围和基因丰富度而备受瞩目,但冻存样本的处理对其结果影响显著。相比之下,snRNA-seq通过关注细胞核转录,巧妙地绕过了解离和转录偏差,尤其适合冻存样本,却牺牲...

玛沁县19481036361: 得到对人类单细胞测序的fastq文件如何计算其coverage,和平均depth -
月致芪参: 第一步需要先将原始数据(fastq)比对到参考人类基因组上,定位每条测序序列的位置,然后统计所有测序序列覆盖在参考基因组上的长度,此长度除以全基因组长度即为coverage.测序得到的所有碱基个数,除以参考基因组长度,即为平均depth.

玛沁县19481036361: 为什么大部分单细胞测序测3'utr -
月致芪参: 细胞是生物学的基本单位,研究人员正更加努力地尝试将它们进行单个分离、研究和比较.单细胞测序是指DNA研究中涉及测序单细胞微生物相对简单的基因组,更大更复杂的人类细胞基因组.随着测序成本的大幅度下降,破译来自单细胞的30亿碱基的基因组并逐个细胞比较序列正在变为现实.目前,最常见的单细胞测序的应用是在肿瘤研究上.来自美国和英国的研究人员近日利用单细胞基因组扩增、测序和装配,从海洋样本中鉴定出一个单细胞细菌.

玛沁县19481036361: 的DNA片段应选择哪一种测序方式 -
月致芪参: DNA片段应选择哪一种测序方式 测序有DNA测序和RNA测序,之前比较早的测序是以芯片为基础,现在常用的是二代测序,全基因组的测序以及RNA-seq,目前比较高级的还有单细胞测序.随之而来的是第三代测序技术, 第三代测序技术则是...

玛沁县19481036361: 如何提取单个细胞的RNA -
月致芪参: 如何提取单个细胞的RNA 1. 首先严格说不是DNA的降解,是DNA被打断后形成的片段,因为一般DNA都很长,在操作过程中容易受外力的作用而断裂,形成片段,这是正常现象,提取中无法避免,只能尽量减少; 2. 如果是降解的话,会形成弥散形的条带,条带区分不明显; 3. 操作中注意用力要柔和,不要用力的摇晃和吹打等,所使用的枪头最好提前用剪刀斜着剪一下,使枪头孔径变大,可以保证抽吸的时候减少对DNA的剪切力; 4. 注意加入RNA酶,降解RNA;

玛沁县19481036361: 有关单细胞提取RNA,看大多都说直接裂解细胞后反转录,然后PCR.这样PCR时会有DNA污染吗? -
月致芪参: 这要看你引物设计如何了,跨内含子与否..? 如果引物设计的好,DNA污染对反转录是没有任何影响的.. 不过还是建议你用DNA酶消化一下..北京华越洋的RNA提取试剂盒,在RNA提取过程中清楚了DNA污染,所以得到的RNA没有任何DNA污染,可满足苛刻的荧光定量PCR对DNA无残留的要求.. 北京华越洋生物..外源RNA酶清除剂,代替致癌的DEPC,..RNA提取必备!

玛沁县19481036361: 您好!看到您回答过的问题!知道是做单细胞藻类的. 我现在的课题涉及到单细胞藻类RNA 的提取,有几个问题 -
月致芪参: 我还是10年前做过掌状冠盖藻的DNA提取的,当时取样一般是用50毫升藻液离心浓缩后提取,破壁是用液氮,提取效果不错.RNA提取比较困难,一不小心就可能就被降解了(唾液中就有RNA酶),我们同学都是晚上实验室没有其他人在的时候提取.

玛沁县19481036361: 单细胞测序知多少 -
月致芪参: 类基组计划测单倍体基组现代遗传家认,约3万基,发现所类基并搞清其染色体位置,破译类全部遗传信息.类基组计划美科家于1985率先提,程像步行式画北京海路线图.打比,张命图绘,30亿碱基构类基组精确测序.随着类基组逐渐破译,基...

玛沁县19481036361: 大小的DNA片段应选择哪一种测序方式 -
月致芪参: 可以用以下测序方法 第1 代测序技术 荧光标记的Sanger 法—— 在分子生物学研究中,DNA的序列分析是进一步研究和改造目的基因的基础.目前用于测序的技术主要有Sanger(1977)发明的双脱氧核糖核酸链末端终止法,目前Sanger测序法得...

玛沁县19481036361: 酵母菌的来源 -
月致芪参: 酵母菌的来源酵母菌是一些单细胞真菌,并非系统演化分类的单元.目前已知有1000多种酵母,根据酵母菌产生孢子(子囊孢子和担孢子)的能力,可将酵母分成三类:形成孢子的株系属于子囊菌和担子菌.不形成孢子但主要通过芽殖来繁殖的...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网