完整的单细胞分析流程——数据标化（normalization）

作者&投稿：卫于（若有异议请与网页底部的电邮联系）

通常在单细胞RNA测序数据中观察到文库之间测序覆盖率的系统差异。它们通常是由细胞间的cDNA捕获或PCR扩增效率方面的技术差异引起的，这归因于用最少的起始材料难以实现一致的文库制备。标准化旨在消除这些差异，以使它们不干扰细胞之间表达谱的比较。这样可以确保在细胞群体中观察到的任何异质性或差异表达都是由生物学而不是技术偏倚引起的。

在这一点上，规范化和批次校正之间的区别需要注意。归一化的发生与批次结构无关，并且仅考虑技术偏差，而批次矫正仅在批次之间发生，并且必须同时考虑技术偏差和生物学差异。技术偏倚倾向于以相似的方式或至少以与它们的生物物理特性（例如长度，GC含量）有关的方式影响基因，而批次之间的生物学差异可能是高度不可预测的。这样，这两个任务涉及不同的假设，并且通常涉及不同的计算方法（尽管某些软件包旨在一次执行两个步骤，例如zinbwave）。因此，避免混淆“标准化”和“批次校正”的数据非常重要，因为这些数据通常表示不同的事物。

我们将主要关注缩放标准化，这是最简单和最常用的标准化策略。这涉及将每个细胞的所有计数除以特定于细胞的比例因子，通常称为“大小因子”。这里的假设是，任何细胞特异性偏倚（例如，捕获或扩增效率）均会通过缩放该细胞的预期平均数来同等地影响所有基因。每个细胞的大小因子表示该细胞中相对偏差的估计，因此，将其计数除以其大小因子应消除该偏差。然后可以将所得的“归一化数据”用于下游分析，例如聚类和降维。为了演示，我们将使用来自scRNAseq软件包的数据集。

文库大小归一化是执行缩放归一化的最简单策略。我们将文库的大小定义为每个细胞中所有基因的计数总和，假定其预期值随任何细胞特异性偏倚而缩放。然后，在定义比例常数的情况下，每个细胞的“库大小因子”直接与其库大小成正比，从而使所有细胞的平均大小因子等于1。此定义可确保归一化的表达值与原始计数处于相同规模 ——这对解释很有用——尤其是在处理转换后的数据时。

在Zeisel脑数据中，文库大小因子在细胞之间的差异最大10倍。这是scRNA-seq数据覆盖范围变异的典型表现。

严格来说，文库大小因子的使用是假设任何一对细胞之间的差异表达（DE）基因中都没有“不平衡”。也就是说，基因的一个子集的任何上调都可以通过不同基因子集中的相同下调幅度来抵消。这样可以通过避免合成效应来确保文库大小是相对于细胞特异性相对偏倚的无偏估计。但是，平衡的DE通常在scRNA-seq应用中不存在，这意味着文库大小归一化可能无法为下游分析产生准确的归一化表达值。

在实践中，标准化的准确性不是探索性scRNA-seq数据分析的主要考虑因素。成分偏差通常不会影响细胞群的分离，而只会影响细胞群或细胞类型之间的对数倍数变化的幅度——向着程度较小的方向。因此，库大小归一化通常在许多应用中都是足够的，这些应用的目的是识别细胞群和定义每个细胞群的top标记。

如前所述，当样本之间存在任何不平衡的差异表达时，就会出现成分偏差。以两个细胞举例，其中单个基因X与细胞B相比在细胞A中被上调。这种上调意味着（i）更多的测序资源用于A中的X，从而当每个细胞的总文库大小通过实验确定时（例如，由于文库量化）；其他的非差异基因的覆盖率降低，或（ii）当为X分配更多的读数或UMI时，A的文库大小增加，从而增加了文库大小因子，并为所有非DE基因产生了较小的归一化表达值。在这两种情况下，最终结果是，与B相比，A中的非DE基因将被错误地下调。

对于大量RNA测序数据分析，消除成分偏差是一个经过充分研究的问题。可以使用 DESeq2 包中的 estimateSizeFactorsFromMatrix（）函数或 edgeR 包中的 calcNormFactors（）函数来执行规范化。这些假设大多数基因不是细胞之间的DE。假设两个细胞之间多数非DE基因之间的计数大小的任何系统性差异都代表了偏差，该偏差用于计算适当的大小因子以将其去除。

然而，由于存在大量的低计数和零计数，单细胞数据应用这些bulk归一化方法可能会有问题。为了克服这个问题，我们汇总了许多细胞的计数以进行准确的大小因子估算。然后，将基于库的大小因子“分解”为基于细胞的大小因子，以标准化每个细胞的表达谱。如下所示，这是使用来自scran的 computeSumFactors（）函数执行的。

我们使用带有 quickCluster（）的预聚类步骤，其中每个聚类中的细胞分别进行归一化，并且将大小因子重新缩放以在各个聚类中具有可比性。这避免了在整个种群中大多数基因都是非DE的假设-在成对的簇之间仅需要非DE多数，这对于高度异质的种群来说是一个较弱的假设。默认情况下， quickCluster（）将基于irlba软件包中的方法对PCA使用近似算法。近似值依赖于随机初始化，因此我们需要设置随机种子（通过set.seed（））以实现可重现性。

我们看到，解卷积大小因子与图7.2中的库大小因子表现出特定于细胞类型的偏差。这与由细胞类型之间强烈的差异表达引入的成分偏倚的存在是一致的。去卷积大小因子的使用针对这些偏差进行调整，以提高下游应用程序的归一化精度。

准确的归一化对于涉及对每个基因统计信息的估计和解释的过程而言最重要。例如，成分偏倚会通过系统性地将对数倍数变化沿一个方向或另一个方向转移来破坏DE分析。但是，对于基于细胞的分析（如聚类分析），与简单的库大小归一化相比，它往往提供的好处较少。成分偏差的存在已经暗示了表达谱的巨大差异，因此更改标准化策略不太可能影响聚类过程的结果。

spike-in归一化基于以下假设：向每个细胞中添加了相同量的spike-in RNA。spike-in转录本覆盖范围的系统差异仅归因于细胞特异性偏差，例如捕获效率或测序深度。为了消除这些偏差，我们通过缩放“ spike-in size factor”来均衡细胞间的spike-in覆盖范围。与以前的方法相比，spike-in归一化不需要系统的生物学假设（即，没有许多DE基因）。取而代之的是，它假定将掺入的spike-in转录本（i）以恒定的水平添加到每个细胞中，并且（ii）以与内源基因相同的相对方式响应偏倚。

实际上，如果需要关注单个细胞的总RNA含量差异，并且必须保留在下游分析中，则应使用加标归一化。对于给定的细胞，内源RNA总量的增加不会增加其spike-in大小因子。这确保了总RNA含量在群体间的表达差异不会在缩放时消除。相比之下，上述其他标准化方法将仅将总RNA含量的任何变化解释为偏差的一部分，并将其消除。

举个例子，在不同亲和力的T细胞受体配体刺激后，在涉及T细胞活化的不同数据集上使用spike-in归一化

我们应用 computeSpikeFactors（）方法来估计所有细胞的spike-in大小因子。通过使用与 librarySizeFactors（）中相同的推理，将每个细胞的总spike-in计数转换为大小因子来定义。 scaling将随后消除细胞间spike-in覆盖率的任何差异。

我们观察到每种处理条件下spike-in大小因子和解卷积大小因子之间存在正相关关系（图7.3），表明它们在测序深度和捕获效率上捕获了相似的技术偏倚。但是，我们还观察到，就亲和力或时间的增加而言，对T细胞受体的刺激不断增加，导致spike-in因子相对于文库大小因子而言有所降低。这与刺激过程中生物合成活性和总RNA含量的增加一致，这减少了每个文库中的相对spike-in覆盖率（从而减少了spike-in大小因子），但增加了内源基因的覆盖率（因此增加了文库大小因子）。

两组尺寸因子之间的差异对下游解释产生了实际影响。如果将spike-in 大小因子应用于计数矩阵，则未刺激细胞中的表达值将按比例放大，而受刺激细胞中的表达将按比例缩小。但是，如果使用反卷积大小因子，则会发生相反的情况。当我们在标准化策略之间切换时，这可以表现为条件之间DE的大小和方向的变化，如下Malat1所示（图7.4）。

一旦计算出大小因子，就可以使用scater中的 logNormCounts（）函数为每个细胞计算归一化的表达值。这是通过将每个基因/spike-in转录本的计数除以该细胞的合适大小因子来完成的。该函数还对归一化后的值进行对数转换，从而创建了一个称为“ logcounts”的新assay。这些对数值将在以下各章中作为我们下游分析的基础。

对数转换很有用，因为对数值的差异表示基因表达的对数倍变化。这在基于欧几里得距离的下游过程中很重要，下游过程包括许多形式的聚类和降维。通过对对数转换后的数据进行操作，我们确保这些过程基于基因表达的对数倍变化来测量细胞之间的距离。比如，一个在细胞类型A中平均表达量为50，在细胞类型B中表达量为10的基因，或在A中为1100，B中为1000的基因，对数转化可以展现出具有强烈相对差异，因此会关注前者。

在进行对数转换时，我们通常会添加一个伪计数以避免值为零。对于低丰度基因，较大的伪计数将有效地将细胞之间的对数倍变化缩小至零，这意味着下游的高维分析将更多地由高丰度基因的表达差异来驱动。相反，较小的伪计数将增加低丰度基因的相对贡献。常见的做法是使用1的伪计数，原因很简单，即实用的原因是它保留原始矩阵中的稀疏性（即原矩阵中的零在变换后仍为零）。除大多数病理情况外，此方法在所有情况下均有效。

顺便说一句，伪计数的增加是出于将尺寸因子居中统一的动机。这确保了伪计数和规范化的表达式值都在同一范围内。伪计数为1可以解释为每个基因的额外reads或UMI。实际上，居中意味着随着计数深度的提高，伪计数的收缩效果减小。这正确地确保了表达的对数倍变化的估计（例如，根据细胞组之间对数值的差异）随着覆盖范围的扩大而变得越来越准确。相反，如果将恒定的伪计数应用于类似百万分之一的度量，则无论我们执行了多少额外的测序，后续对数倍更改的准确性都将永远不会提高。

在极少数情况下，出于由A.Lun所描述的影响，不适合直接对计数进行缩放。简而言之，这是由于对数归一化计数的平均值与对数变换后的归一化计数的平均值不同而造成的。它们之间的差异取决于原始计数的均值和方差，因此相对于计数大小，对数计数的平均值存在系统的趋势。这通常表现为即使在文库大小归一化之后，轨迹也与文库大小密切相关，如图7.5所示，通过合并和拆分方法生成的合成scRNA-seq数据如图5所示。

由于问题是由于计数大小的差异而引起的，因此最直接的解决方案是降低取样高覆盖率细胞的以匹配低覆盖率细胞。这使用大小因子来确定达到大小因子的第1个百分位数所需的每个细胞的减采样。（只有少数几个具有较小尺寸因子的细胞被简单地按比例放大。我们不会尝试将采样缩减为最小尺寸因子，因为这将导致一个尺寸因子非常低的异常细胞过度丢失信息。）我们可以看到这消除了前两个PC中与库大小因子相关的轨迹，从而提高了基于混合比的已知差异的分辨率（图7.6）。对数转换仍然是必需的，但是当细胞之间的计数大小相似时，不再会导致均值变化。

虽然减采样是一种方便的解决方案，但由于需要增加高覆盖率细胞的噪声以避免与低覆盖率细胞之间的差异，因此它在统计上是无效的。它也比简单缩放慢。因此，我们只建议在按比例缩放的初始分析显示与大小因子高度相关的可疑轨迹后再使用此方法。在这种情况下，通过减采样重新确定轨迹是否是对数转换的伪像是一件简单的事情。

单细胞交响乐1-理解scRNA常用的数据结构SingleCellExperiment
我们首先要对单细胞分析的流程有一个大概的认识：上半场分析：这个差不多属于固定的流程了下半场分析：这个就可以分出很多分支，例如这是单细胞分析中的非常常用的S4对象，里面包罗万象，但依然有据可循。那么它是如何组织的？存储了什么内容？这就是我们这次要探索的任务。内容来自： https:\/\/osca....

单细胞分析之细胞交互-3:CellChat
CellChat工作流程图：从Seurat对象直接创建： ⚠️：构建Cell Chat对象时，输入的是log后的数据。在CellChat中，我们还可以先择特定的信息描述细胞间的相互作用，可以理解为从特定的侧面来刻画细胞间相互作用，比用一个大的配体库又精细了许多。对表达数据进行预处理，用于细胞间的通信分析...

单细胞转录组之Scanpy - 轨迹推断\/拟时序分析
利用算法基于基因表达推断每个细胞的相对分化时间，从而确定分化轨迹。monocle是进行拟时序分析常用的包，这是基于R完成的。但是之前也说了，monocle对于内存消耗很大，很容易出现内存不足的问题，scanpy则不会出现这个问题，而且scanpy内嵌轨迹推断函数，可以无缝衔接之前的单细胞分析。scanpy作者使用了小鼠造血...

10X 单细胞基因表达样本制备指南
单细胞转录组学是阐明复杂生物系统的一种强大工具,让您能够逐个细胞地研究基因表达动态。通过生成细胞群体的单细胞图谱,单细胞RNA测序(scRNAseq)能够解析复杂样本中不同类型细胞之间的特定差异。单细胞基因表达谱分析带来了疾病发展过程中有关细胞进程的重要见解。scRNA-seq 技术的进步让研究人员能够获取之前经常会被大量...

单细胞专题 | 带你“走近”单细胞转录组测序
早期的技术，如SMART-Seq2和流式分选，尽管具有开创性，但成本高昂且技术局限性明显。然而，随着微流控技术的崛起，如10X Genomics Chromium，它显著降低了成本并提高了效率，使得大规模单细胞测序成为了可能。这一技术流程包括捕获、标记、反转录、构建文库、测序，以及后续的详尽数据分析，每一个步骤都...

单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据...
在分析单细胞DNA-Seq数据前,必须将DNA拷贝数异常与WGA杂峰区分开。该要求使得单细胞测序数据DNA拷贝数分析和单倍型分析有难度。在本研究中,作者研发了一种单细胞基因组分析法,可在单细胞全基因组确定单倍型和拷贝数——称为haplarithmisis的程序。方法解读单细胞的SNP等位基因片段,并将这些数据整合到计算工作流程中进...

生信综述?带你解锁高分单细胞发文骚操作!
我先讲的第一篇是2021年发表在J Am Soc Nephrol（IF:10.12）的篇名为“How to Get Started with Single Cell RNA Sequencing Data Analysis”的文章。好吧，看了一下日历，今年已经2022年了，就不吐槽这个文章时效性的问题了。但全文真的很简单，就是介绍了一下单细胞测序数据分析的基本流程。来...

单细胞36计之22---单细胞转录组做WGCNA
不管是时间这个属性天然对单细胞分组，还是整体的表达矩阵进入单细胞数据分析流程后分组，都是可以看基因表达量情况的小提琴图等等。分析其实仍然是我们一直讲解的R包及基础流程，分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象，：一些单细胞转录组R包的对象流程也大同小异：...

单细胞系列课程-10 Trajectory inference analysis of scRNA-seq data...
在进行标准的单细胞分析流程得到聚类结果后,可以进行轨迹分析,并进一步进行基因表达分析。但并不是只有聚类结果才可进行轨迹分析,标准分析中的很多步骤都可以follow with轨迹分析。在整个生命生长发育过程中,细胞都在不断从一种功能“状态”过渡到另一种功能“状态”(如下图)。处于不同状态的细胞表达不同的基因,产...

一文解决单细胞亚群注释的所有问题
我身边就有很多认识的朋友做了单细胞测序，但是没有分析出任何可用的结果，最终砸手里了。单细胞测序既然是在单个细胞研究科学问题，那就引出了其分析流程中很关键一步--细胞亚群的注释。别小看这简单的一步，它可以说是单细胞测序研究成败的最关键因素之一，因为后续的分析都是基于这一步开展的，如果...

克东县15917485016： spss中主成分分析法的数据如何进行标准化处理? - ？
田鲁二氯： 先将x1-x12作为指标名在转置排复列,即行为指标名,列为数值.然后打开软件,导入数据,单击分析->数据缩减->因子分析,进入因子分析窗口,选制中所有变量加入右边框,点击描述->相关百矩阵-,勾选系数,kmo两项单击继续回到因子分析窗口,在选择旋转,勾选无,然后按确定就行了.一般软件会进行标准度化处理的,应该不用你自己处理.这个步骤只是大致的知,因为SPSS版本不同,界面也会有所不同,还有中英文版的,所以可能还要你对软件的语言翻道译一下.身边现在只有中文版的,不好意思啦~~

克东县15917485016： 用SPSS做因子分析时,怎样给数据标准化(具体操作步骤)? - ？
田鲁二氯： 我一般都是在excel里对数据进行标准化预处理,然后拿处理后的数据在spss里做因子分析,虽然麻烦点,但是心里有谱,知道该怎么操作,希望我的经验能帮上你

克东县15917485016： 用极值标准化法怎么进行无量纲化处理? - ？
田鲁二氯： 最典型的就是0-1标准化和Z标准化,也是最常用的. 1、0-1标准化(0-1 normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值.这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义. 2、Z-score 标准化(zero-mean normalization) 也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差.

克东县15917485016： 在家玩游戏怎么老是掉线,和QQ一起掉的.宽带也没掉. - ？
田鲁二氯： 使用ADSL上网会经常遇到网页打不开、下载中断、或者在线视、音频流中断、qq掉线、游戏掉线等现象. 我们不妨假定楼主是使用ADSL上网.其实其他方式上网经常掉线的原因和下列原因大致相同.分析一下ADSL掉线的原因. 一,线路问...

克东县15917485016： 预期经济业务所发生的负债不作为负债处理? - ？
田鲁二氯： 预期经济业务所发生的负债,会计中不作为负债处理.

克东县15917485016： 下列软件中属于应用软件的是( ) A. 操作系统 B. 编译程序 C. 数据库管理系统 D. 财务管理系统 - ？
田鲁二氯： 选D、财务管理系统. A、操作系统 B、编译程序 C、数据库管理系统三个选项都是指系统软件.系统软件为计算机使用提供最基本的功能,使得计算机使用者和其他软件将计算机当作一个整体而不需要顾及到底层每个硬件是如何工作的. 扩...

克东县15917485016： 如何进行有效的数据分析 - ？
田鲁二氯： 首先,我们要明确数据分析的概念和含义,清楚地理解什么是数据分析; 什么是数据分析呢,浅层面讲就是通过数据,查找其中蕴含的能够反映现实状况的规律. 专业一点讲:数据分析就是适当的统计分析方法对收集来的大量数据进行分析,...

你可能想看的相关专题

星空见康网

完整的单细胞分析流程——数据标化（normalization）

你可能想看的相关专题