10X单细胞(10X空间转录组)降维分析之UMAP

作者&投稿:侯研 (若有异议请与网页底部的电邮联系)
~

UMAP ,全称uniform manifold approximation and projection,统一流形逼近与投影,是基于黎曼几何和代数拓扑的理论框架结构构建的。在处理大数据集时,UMAP优势明显,运行速度更快,内存占用小。Etienne Becht等人2019年在Nature Biotechnology上发表一篇文章将其应用在生物学数据上并阐述了UMAP在处理单细胞数据方面的应用和优势。

如果你不知道tSNE是什么,它是如何工作的,也没有读过2008年的革命性的van der Maaten & Hinton原稿,可以参考我的那文章 10X单细胞(10X空间转录组)降维分析之tSNE(算法基础知识) 。尽管tSNE对一般的单细胞基因组学和数据科学产生了巨大的影响,但人们普遍认为它有一些缺点,这些缺点很快将得到解决。( tSNE的缺点在上次分享的文章中也做过详细的介绍 )。

看看上面的图,我想说的是 t分布应该提供全局距离信息,因为它们将高维空间中相距较远的点推到低维空间中更远的点。

然而,这种良好的意愿被成本函数(KL-divergence)的选择所扼杀,我们将在后面看到其原因。

(1),可以显著降低计算时间高维图像由于求和或集成是一个代价高昂的计算过程。想想马尔可夫链蒙特卡罗(MCMC)它基本上是试图近似地计算在贝叶斯规则的分母上的积分(UMAP使用最近邻居的数量而不是perplexity)

(2)定义perplexity, UMAP则定义了没有log2函数的最近邻居k的个数,即:

UMAP使用稍微不同的高维概率对称

symmterization是必要的因为UMAP融合在一起的点与本地不同的指标(通过参数ρ),它可能发生图A和B节点之间的重量不等于B之间的权重和节点。为什么UMAP使用这种对称而不是tSNE使用的对称还不清楚。我将在下一篇文章(从头开始编写UMAP)中展示我对不同的对称化规则的实验,这并没有使我相信这是如此重要的一步,因为它对最终的低维嵌入式产生了很小的影响。
UMAP使用曲线族1 / (1+a*y^(2b))在低维中建模距离概率,不是完全的学生t分布,但非常非常相似,请注意再次没有应用标准化:

其中,对于默认UMAP超参数a≈1.93,b≈0.79(实际上,对于min_dist = 0.001)。在实践中,UMAP从非线性最小二乘拟合到带有min_dist超参数的分段函数中找到a和b:

为了更好地理解曲线族1 / (1+a*y^(2b))的行为,让我们画出不同a和b的曲线:

我们可以看到曲线族对参数b非常敏感,在大的参数b处,在小的参数y处,曲线族形成了一种高峰。这意味着在UMAP超参数min_dist之下,所有的数据点都是同样紧密相连的。由于Q(Y)函数的行为几乎像一个Heaviside阶跃函数,这意味着UMAP为所有在低维空间中相互靠近的点分配了几乎相同的低维坐标。min_dist正是导致在UMAP维数降低图中经常观察到的超密集集群的原因。

为了演示如何准确地找到a和b参数,让我们展示一个简单的分段函数(其中高峰部分是通过min_dist参数定义的),并使用函数族1 / (1+a y^(2b))通过优化来拟合它。curve_fit来自Scipy Python库。作为拟合的结果,我们得到了函数1 / (1+a y^(2b))的初值a和初值b。

由于我们需要知道交叉熵的梯度,以便以后实现梯度下降,让我们快速计算它。忽略只包含p(X)的常数项,我们可以将交叉熵重新写一下,并将其微分如下:

图拉普拉斯、谱聚类、拉普拉斯Eignemaps、扩散图、谱嵌入等,实际上是指将矩阵分解和邻接图方法结合起来解决降维问题的同一种有趣的方法。在这种方法中,我们首先构造一个图(或knn图),然后通过构造拉普拉斯矩阵用矩阵代数(邻接矩阵和度矩阵)将其形式化,最后分解拉普拉斯矩阵,即求解特征值分解问题。

我们可以使用scikit-learn Python库,并使用spectralembedded函数在演示数据集(即与癌症相关的成纤维细胞(CAFs) scRNAseq数据)上轻松地显示初始的低维坐标:

最后,UMAP使用随机梯度下降(SGD)代替常规梯度下降(GD),如tSNE / FItSNE,这既加快了计算速度,又减少了内存消耗。

现在让我们简要地讨论一下为什么他们说tSNE只保留数据的局部结构。可以从不同的角度来理解tSNE的局部性。首先,我们有σ参数Eq。(1)本地数据点集这样互相“感觉”。因为成对欧几里得距离衰减指数的概率,在小的σ值,它基本上是零遥远的点(大型X)和快速增长仅为最近的邻居(小X)。相比之下,在大的σ,遥远而近点的概率成为限制可比和σ→∞,概率就等于1为所有任何一对点之间的距离,即成为等距点。

有趣的是,如果我们扩大成对欧几里得距离的概率高维度成泰勒级数在σ→∞,我们会在第二近似幂律:

关于两两欧几里得距离的幂律类似于多维定标法(MDS)的成本函数,MDS是通过保存每对点之间的距离来保存全局距离,而不管它们是相距很远还是很近。一个可以解释这个大的σtSNE远程数据点之间的相互作用,所以是不完全正确的说tSNE只能处理当地的距离。然而,我们通常会受到perplexity有限值的限制,Laurens van der Maaten建议perplexity的取值范围在5到50之间,尽管在局部信息和全局信息之间可能会有一个很好的折衷,那就是使用平方根≈N^(1/2)来选择perplexity,其中N为样本量。相反的极限,σ→0,我们最终的极端“局部性”高维概率的行为类似于狄拉克δ函数的行为。

另一种理解tSNE“局部性”的方法是考虑KL-divergence函数。假设X是高维空间中点之间的距离Y是低维空间中点之间的距离

根据kl -散度的定义:

方程(9)的第一项对于X的大小都是趋近于0的,对于X的大小也是趋近于0的,因为指数趋近于1,而log(1)=0。对于大X,这一项仍然趋近于0因为指数前因子趋近于0的速度快于对数趋近于负无穷。因此,为了直观地理解kl散度,只考虑第二项就足够了:

这是一个看起来很奇怪的函数,让我们画出KL(X, Y)

这个函数的形状非常不对称。如果点在高维度X之间的距离很小,指数因子变成1和对数项行为日志(1 + Y ^ 2)这意味着如果Y是在低维空间的距离大,将会有一个大的惩罚,因此tSNE试图减少Y在小X为了减少罚款。相反,对于高维空间中的长距离X, Y基本上可以是0到∞之间的任何值,因为指数项趋于0,并且总是胜过对数项。因此,在高维空间中相距遥远的点,在低维空间中可能会相互靠近。因此,换句话说,tSNE并不能保证高维空间中相距较远的点在低维空间中会保持较远的距离。然而,它确实保证了在高维空间中相邻的点在低维空间中保持相邻。所以tSNE不是很擅长远距离投射至低维,所以它只保留本地数据结构提供了σ不去∞。

与tSNE不同,UMAP使用交叉熵(CE)作为成本函数,而不是KL-divergence

这导致了地方-全球结构保护平衡的巨大变化。在X的小值处,我们得到了与tSNE相同的极限,因为第二项由于前因子和对数函数比多项式函数慢的事实而消失:

因此,为了使惩罚规则最小化,Y坐标必须非常小,即Y→0。这与tSNE的行为完全一样。但是,在大X的相反极限,即X→∞时,第一项消失,第二项的前因子为1,得到:

这里,如果Y很小,我们会得到一个很大的惩罚,因为Y在对数的分母上,因此,我们鼓励Y很大,这样,对数下的比率就变成了1,我们得到零惩罚。因此,我们在X→∞处得到Y→∞,所以从高维空间到低维空间的整体距离保持不变,这正是我们想要的。为了说明这一点,让我们绘制UMAP CE成本函数:

在这里,我们可以看到图的“右”部分看起来与上面的kl散度曲面非常相似。这意味着在X低的时候,为了减少损失,我们仍然想要Y低。然而,当X很大时,Y的距离也要很大,因为如果它很小,CE (X, Y)的损失将是巨大的。记住,之前,对于KL (X, Y)曲面,在X很大的情况下,我们在高Y值和低Y值之间没有差别,这就是为什么CE (X, Y)代价函数能够保持全局距离和局部距离。

我们知道UMAP是速度比tSNE担忧)时大量的数据点,b)嵌入维数大于2或3,c)大量环境维度的数据集。在这里,让我们试着了解UMAP要优于tSNE来自于数学和算法实现。

tSNE和UMAP基本上都包含两个步骤:

然而,我注意到UMAP的第一步比tSNE快得多。这有两个原因:

接下来,UMAP实际上在第二步中也变得更快了。这种改善也有几个原因:

在这篇文章中,我们了解到尽管tSNE多年来一直服务于单细胞研究领域,但它有太多的缺点,如速度快、缺乏全球距离保存。UMAP总体上遵循了tSNE的哲学,但是引入了一些改进,例如另一个成本函数和缺少高维和低维概率的标准化。

除了运行速度快,内存占用小等特点,UMAP在处理细胞学数据时还有一个大的优势,就是可以反映细胞群体之间分化的连续性和组织性。下面将通过文献中的数据【2】来为大家详细讲解。

对同一组数据分别进行tSNE和UMAP降维,该数据为多达30万个从8种不同组织富集得到的T细胞和NK细胞的样本,并使用Phenograph聚类把细胞分为6大类,每种颜色代表一种细胞。从图中可以看出,UMAP和tSNE都可以较好地把不同类别的细胞分开。但tSNE倾向于把相同细胞群划分为更多的群,如图显示,黑色圈中CD8 T细胞,在tSNE结果中,群数更多,距离更远。

同样这组数据用组织来源对UMAP和t-SNE图上细胞的进行颜色区分,可以观察到一个有意思的现象。与UMAP相比,t-SNE更加倾向于根据它们的来源来分离总体细胞。而 UMAP则会兼顾细胞群的类别和来源来排列,如图中在CD4 T细胞和CD8 T细胞群内,细胞的排列与来源也会有一定的规律性,都是大致从脐带血(CB)和外周血单核细胞(PBMC),到肝脏(Liver)和脾脏(Spleen),最后到一端的扁桃或另一端的皮肤(Skin)、肠道(Gut)和肺(Lung)。

通过驻留记忆T细胞标志物CD69/CD103、记忆T细胞标志物CD45 RO和naïve T细胞标志物CCR7表达群的分布,可以观察到UMAP可以展示出T细胞连续的分化阶段。而tSNE结果中,这些群之间也是连续的,但是却没有非常明显的沿轴结构。同样的现象也在造血细胞系统中被观察到。由此可见, UMAP在大数据集的处理时可以展现细胞集群的连续性。

对三组数据(Samusik、Wong、Han_400k)分别进行数据随机降低至100-200,000之间不同的数量级,形成小数据集。纵轴为小数据集与原始数据集的相关性,代表降维方法在不同数据量上的可重复性。UMAP表现最好,数据集越大,优势越明显。

下图是UMAP和t-SNE对一套784维Fashion MNIST高维数据集降维到3维的效果的比较。

虽然这两种算法都表现出强大的局部聚类并将相似的类别分组在一起,但UMAP还将这些相似类别的分组彼此分开。另外,UMAP降维用了4分钟,而多核t-SNE用了27分钟。

UMAP的两个最常用的参数:n_neighbors 和 min_dist,它们可有效地用于控制最终结果中局部结构和全局结构之间的平衡。

最重要的参数是 n_neighbors ,近似最近邻居数。它有效地控制了UMAP局部结构与全局结构的平衡,数据较小时,UMAP会更加关注局部结构,数据较大时,UMAP会趋向于代表大图结构,丢掉一些细节。

第二个参数是 min_dist,点之间的最小距离。此参数控制UMAP聚集在一起的紧密程度,数据较小时,会更紧密。较大的值会更松散,而将重点放在保留广泛的拓扑结构上。

t-SNE和UMAP大部分的表现非常相似,但以下示例明显例外:宽而稀疏的cluster中有密集的cluster(如下图所示)。UMAP无法分离两个嵌套的群集,尤其是在维数较高时。

UMAP在初始图形构造中局部距离的使用可以解释该算法无法处理情况的原因。由于高维点之间的距离趋于非常相似(维数的诅咒),所以可能会因此将其混合在一起。

算法很难,所以懂的人才显得牛

天行健,君子以自强不息




单细胞+空间转录组,这套思路够你用到2022!
据统计,CNS 发表单细胞领域文章已经超过 900 篇,其中 2019~2020 期间发表 285 篇。国自然资助的单细胞项目已经达到 513 项,总额 4.1 亿,其中 2019 年中标 113 项,总额 6,606 万。 如果说单细胞技术是热门,那空间转录组就是黑马,10x Visium 技术一经问世,便备受瞩目。空间转录组避免了组织中细胞位置信息丢失...

10X单细胞或者10X空间转录组分析转基因和病毒序列(项目经验)
3‘转的A尾,5’抓的帽子,从特异性来看,5‘更好,因为抓取的3‘段有一段为ployA,真正比对到基因组上的序列比5’要短,那比对到多个区域的可能性就会增加,外源基因可能会被掩盖。 当然,转基因测序方向可替代的技术很成熟,不一定非要使用10X单细胞技术 我们通过测序非常想知道COVID-19到底...

一文解决单细胞亚群注释的所有问题
理论上来说,每一类细胞都有自己独特的标志基因,就像我们做流式一样,根据表达的蛋白来对细胞进行定义,而且既然是单个细胞水平的测序结果,这应该没有什么难度。但和其它技术一样都会有自己的不足,而单细胞测序(10X)同样也有自身解决不了的问题:如下图是一篇做正常 肾组织 单细胞文献中用到的标志...

10X单细胞(10X空间转录组)聚类算法之leiden
学生是 细胞 ,在操场上站队(聚类)。模块度 是体育老师,检查学生站队是否合理。连线( 细胞间权重 )表示学生之间有一定的关系,比如同班同学,身高一致等。当害羞同学从红队调整到绿队时,体育老师发现队形变好看了(模块度打分提高了)。因为红队身高整体比绿队高,害羞同学比较矮,适合绿队。害羞同学刚...

完整的单细胞分析通用流程——从数据到可视化
来自scRNA-seq实验的测序数据必须转换成可用于统计分析的表达矩阵。考虑到测序数据的离散性,通常是一个计数矩阵,其中包含映射到每个细胞中每个基因的UMI或读数的数量。量化表达的过程往往取决于技术:1.对于10X Genomics数据,CellRanger软件包提供了一个自定义管道来获取计数矩阵。这使用 STAR 将reads与参考...

单细胞测序中,10xgenomics测序中的10x是什么意思呢?是不是指的是测序...
10X genomics是他们公司的商标就跟Illumina一样,X表示字母读作[eks]不是乘号的意思,所以也不是指测序深度。

如何降低单细胞科技服务的成本
组织解离和细胞悬液的制备,这在用户看来有成熟的商业试剂,购买过来,按照SOP操作就行了。但是每个物种不同器官的组织解离条件,往往差别很大,也是需要上游公司投入研发成本的,这个成本被压缩到了试剂的价格之中,服务商和用户一同为之买单。根据2019年数据,10X单细胞制备平台10x Genomics Chromium ...

单细胞测序样本制备系列经验分享— 脑组织抽核篇
10xGenomics单细胞测序平台自2018年问世以来,被广泛的应用到科学研究的各个领域,在描绘组织发育图谱和探究疾病致病机制方面做出了巨大贡献,成为测序领域的“流量之王”。利用10xGenomics平台进行单细胞测序时,大部分研究者会首选新鲜离体的样本消化成单细胞悬液,但这种方式并非对所有组织都适用(见表一)...

单细胞专题 | 带你“走近”单细胞转录组测序
早期的技术,如SMART-Seq2和流式分选,尽管具有开创性,但成本高昂且技术局限性明显。然而,随着微流控技术的崛起,如10X Genomics Chromium,它显著降低了成本并提高了效率,使得大规模单细胞测序成为了可能。这一技术流程包括捕获、标记、反转录、构建文库、测序,以及后续的详尽数据分析,每一个步骤都...

一文看懂植物单细胞测序怎么做?
随着单细胞测序技术的突破,单细胞测序的时代已然到来。2018年单细胞基因组学被science评为年度突破技术,2020年单细胞多组学技术被Nature Methods 评为2020年年度技术。 其中10xGenomics作为单细胞测序方向上的佼佼者,持续致力于单细胞测序技术和新应用的开发,推动这单细胞测序时代的快速发展。目前应用其技术已经发表了2200...

爱辉区19443878278: 10x genomics单细胞转录组为什么只能获得3'端转录本信息 -
成王新律克: 要看情况,总体的测序深度是否够高,如果某个基因或转录本的reads数目仅有1-2条,我们一般认为其确实存在,但是表达量无法准确估计.所以在下结论的时候一般以readscount;1的认为有表达,但是以FPKM;1为可信的表达量,低于该值的表达量可能是不

爱辉区19443878278: 单细胞低什么原因 -
成王新律克: 单核细胞百分比偏低,一般是没什么影响的,反而升高时会提示身体有某些病症的出现.减少的意义不大.单独的单核细胞百分比说明不了什么问题.一般它是与白血球有相关的关系.(正常白细胞由粒细胞(占50-70%),淋巴细胞(占20-40%)和单核细胞(占3-8%)组成.)

爱辉区19443878278: 单核细胞偏低 -
成王新律克: 病情分析:单核细胞减少 见于急、慢性淋巴细胞白血病和全骨髓功能不全.,意见建议:

爱辉区19443878278: 急性单核细胞白血病(M5b)的发病原因、过程、结局? -
成王新律克: 急性单核细胞白血病:简称急性单白血病.属法美英协作组分类法中的M5型.由Scirllling氏等于1913年首先描述,故又称急性单核细胞自血病Schilling型.本病骨髓中单核细胞(包括原始、幼稚及成熟单核细胞)明显增生,占非红系细胞的80%...

爱辉区19443878278: 为什么大部分单细胞测序测3'utr -
成王新律克: 细胞是生物学的基本单位,研究人员正更加努力地尝试将它们进行单个分离、研究和比较.单细胞测序是指DNA研究中涉及测序单细胞微生物相对简单的基因组,更大更复杂的人类细胞基因组.随着测序成本的大幅度下降,破译来自单细胞的30亿碱基的基因组并逐个细胞比较序列正在变为现实.目前,最常见的单细胞测序的应用是在肿瘤研究上.来自美国和英国的研究人员近日利用单细胞基因组扩增、测序和装配,从海洋样本中鉴定出一个单细胞细菌.

爱辉区19443878278: 在目镜10X和物镜10X的显微镜下,可以观察到16个细胞,那在目镜10X和物镜40X情况下,能观察到几个细胞?我算的是4个,为什么答案说是1个啊,不是... -
成王新律克:[答案] 应该是缩小了16倍 简单来说,你可以把细胞考虑成正方形(假设啊),在紧密排列的情况下,放大4倍时(因为题目是在原... 你放大什么程度就少到什么程度!但是相对原来,是少而清晰了,毕竟原来看16个细胞的空间,现在只看1个!

爱辉区19443878278: 膜内折合内共生学说是用来解释生物进化过程中的哪个本质性变化 1厌氧到有氧2单细胞到多细胞3原核细胞到真 -
成王新律克: 膜内折应该是生物从厌氧到需氧、异养到自养的基础. 内共生学说可以解释线粒体、叶绿体两种细胞器的起源问题.

爱辉区19443878278: 1.在光亮处用同一种培养液分别培养单细胞绿藻和酵母菌,造成酵母菌数量下降的原因是培养液中缺少( );而绿藻的数量上升的原因是( ). 2.在生物圈... -
成王新律克:[选项] A. 大多数细菌缺乏叶绿素 B. 细菌都没有成型的细胞核 C. 大多数细菌缺少液泡 D. 细菌不需要呼吸 顺便再问一句:什么是脱毒土豆?

爱辉区19443878278: 单细胞和多细胞转录组分析上有什么区别 -
成王新律克: 转录组是指某个物种或特定细胞在某一生理功能状态下,细胞内所有转录的mRNA产物的集合,包含了时间和空间的限定,是连接基因组遗传信息与生物功能的蛋白质组的必然纽带.转录水平的调控是目前研究最多的,也是生物体最重要的调控方式.应用高通量技术进行转录组测序是一种快捷可靠的获取转录组信息的方法.mRNA的转录本表达分析,通过获得研究对象基因组转录区域的信息,鉴定转录发生位点,可变剪切等,其精确的计数方法更可对基因进行精确的定量分析.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网