文献阅读 EMM:癌症中的单细胞转录组学-计算的挑战与机遇

作者&投稿:平菁 (若有异议请与网页底部的电邮联系)
~

学习一篇综述文献:Single-cell transcriptomics in cancer: computational challenges and opportunities,2020年发表于Experimental & Molecular Medicine,DOI号: https://doi.org/10.1038/s12276-020-0422-0 。(第一作者Jean Fan是Harvard大名鼎鼎的BIG生信项目的PhD,目前在霍普金斯当AP)。

癌症在基因组、表观基因组、转录组、蛋白质组水平的分子畸变的驱动下,表现出高度异质性,从而展现出表型的多样性。然而bulk RNA-seq测得的是癌症样本中的细胞混合物,因此基因表达定量结果是细胞混合物的平均结果,会受到特定转录谱及样本内不同细胞类型和状态丰度的影响。而single-cell resolution的转录组分析提供了识别和表征不同转录亚群和状态的机会。

本文主要综述执行癌症相关单细胞分析的计算方法:

当细胞是按样本或批次聚集而不是按感兴趣的细胞类型或状态聚集时,从数据中识别共享的细胞类型或状态可能会很困难。这种关于批次效应的挑战可能导致错误的发现,并使下游分析和生物学解释所必需的共享细胞类型和状态的识别变得复杂。而癌症固有的真正独特的患者特异性差异的存在使得问题进一步复杂化。 (各算法逻辑会在后续的学习工作中深入研究,现在先初步了解)

核心思想1:

上述方法的一个显著局限是使用单一分类变量来编码batch label。

核心思想2:

这些方法在分析时,将不同样本的不同细胞类型分配到同一个cluster中,可能会导致 过度校正 ,而被误认为是相同的细胞类型。除了离散的细胞类型和细胞状态外,癌症数据集还可能包含显示出平稳发展和进化轨迹的细胞。当数据集整合不能保持这些生物轨迹的拓扑时,统一的分析方法可能会导致另一种形式的 过度校正 使用来自整合分析的聚类注释单独分析每个数据集可以帮助评估整合结果的质量。

基于deep neural network:

与PCA、CCA和NMF等矩阵分解方法(在这些方法中,我们可以检查每个基因对每个因子的贡献)相比,从深度学习方法获得的隐空间可能不那么容易解释。这引起了对技术特征的过度拟合或数据中其他不必要的变化方面的担忧。因此,需要更多的努力来证明来自深度神经网络的隐空间反映的是不同癌症组织的生物和临床相关的模式。

在对来自多个患者的癌症数据集进行整合分析时,由于肿瘤细胞与非肿瘤细胞在患者间的异质性程度不同,非肿瘤细胞可能按细胞类型聚集,而肿瘤细胞则按患者分离。

肿瘤细胞通常在各种生化通路和致癌程序中表现出广泛的改变,它们可能在转录上与非肿瘤细胞完全不同,从而可以通过聚类分析进行区分,然而对这些细胞亚群进行肿瘤或非肿瘤的细胞注释具有一定挑战。在某些癌症中,检测不同的marker基因或联合的marker基因可以区分肿瘤细胞和非肿瘤细胞,比如多发性骨髓瘤(multiple myeloma)细胞以CD38+/CD138+抗原表达为marker,可以通过在scRNA-seq数据中共同检测高CD138(SDC1)和CD38基因的表达来识别肿瘤细胞。

然而,scRNA-seq数据可能会受到许多技术的影响,例如drop-outs,当一个基因表达但未被检测到,或者是高稀疏性,使得这种基于marker检测的二元分类容易出现假阴性。此外,对于一些其他癌症,仅marker基因不足以区分肿瘤细胞和非肿瘤细胞。 例如,在一项胰腺导管癌(pancreatic ductal carcinoma)的研究中,聚类分析产生了多个细胞簇,根据marker基因的表达确定为导管细胞,如果没有额外的信息,这种聚类分析无法确定所确定的导管细胞群的恶性状态。 尽管异常表达程序如癌症相关通路(如血管生成和增殖)的上调可能涉及特定的细胞簇,但仅基于通路表达的注释可能是模糊的。因为肿瘤细胞也可以以我们意想不到的方式表达典型非肿瘤细胞相关的基因和通路。因此,除marker基因或通路表达外往往需要更多的可靠证据来区分肿瘤细胞和非肿瘤细胞。

为此, 计算方法已经发展到可以直接从scRNA-seq数据中识别DNA水平的畸变。可以通过将伴随CNV的肿瘤细胞的平均基因表达谱与恰当的正常组织参考进行比较来推断大片段的拷贝数改变(CNV)。 平滑归一化表达幅度偏差的分层聚类可以区分伴有CNV的细胞和正常二倍体细胞。然而,这种基于表达的CNV推断的可靠性取决于癌症表达谱与正常参考的匹配程度,需要一个适当的正常参考来确保观察到的表达量偏差是潜在的拷贝数变化的结果,而不是平台或细胞类型特异性差异的结果。如果癌细胞类型的起源是未知的,确定一个适当的正常参考可能非常具有挑战性。 另一种识别CNVs的计算方法是基于杂合生殖系单核苷酸多态性(SNPs)的变异等位基因频率(VAFs)。 拷贝数的变化使scRNA-seq数据中观察到的VAFs出现偏态,缺失的存在导致丢失的等位基因持续损耗,而扩增将导致扩增的等位基因丰度增加。由于基于等位基因的方法依赖于许多SNP位点的高覆盖度,因此来自能够实现全转录本覆盖的 scRNA-seq protocols的数据最适合这些分析(例如Smart-seq2)。

有些癌症并没有如此大片段的CNV。 其他较小片段的DNA水平的改变,如体细胞点突变也可以从scRNA-seq数据中识别,并用于区分肿瘤细胞。 然而,从scRNA-seq数据中检测体细胞点突变仅限于在具有足够read覆盖度的位点的外显子内的突变。一些新技术如靶向位点特异性扩增或基于定量聚合酶链反应的靶向突变检测,可以直接从scRNA-seq数据中或与scRNA-seq数据一起,稳健地检测选定的点突变状态。由RNA编辑导致的假阳性也需要加以考虑。

除了区分肿瘤细胞和非肿瘤细胞,CNV推断和体细胞mutation calling可以用来区分基因层次上不同的肿瘤亚克隆。

除了表征肿瘤微环境的异质性外,计算方法也被发展用来推断不同细胞类型之间的通信。由于scRNA-seq方法需要制备单细胞悬液,原始组织中细胞排列的空间背景就丢失了。因此,从 scRNA-seq数据推断细胞间通信的计算方法需要失去细胞spatial proximity信息后的其他证据, 普遍依赖于比较受体基因在一种细胞类型和配体基因在另一种细胞类型中的表达水平。

由于所分析的患者和样本数量有限,仅关注scRNA-seq数据集在统计效能方面可能受到限制。为了充分利用大容量RNA-seq样本的更大可用性,已经开发了去卷积(deconvolution)的方法,在从scRNA-seq数据中识别细胞类型特异性标记物后,来推断bull RNA-seq样本不同免疫细胞和基质细胞的比例。

虽然像scRNA-seq这样的单细胞转录组分析技术提供了单细胞分辨率的全转录组范围的分子度量,但这些度量最终代表的是时间上的单个 快照(snapshot) 。因为癌症进化的连续性质,更广泛地说,细胞发育的连续性质,这种时间信息的缺乏对于癌症和其他动态过程的研究是很有局限性的。 虽然scRNA-seq提供的是单个时间点上每个细胞的快照,但代表一系列进化阶段的许多细胞的快照可以让我们在伪时间和轨迹内对这些细胞进行排序。

虽然轨迹推断方法能够沿某些轴定位细胞,但目前的方法并不能通过轨迹推断,评估关于进展速率或方向的潜在时间动力学。 RNA速率分析可以为推断的轨迹提供方向性。 RNA速率分析利用scRNA-seq数据中内含子(即未剪接的,未成熟的)和外显子(即剪接的,成熟的)reads的相对比率来推断转录丰度的变化率,从而估计细胞未来的转录状态。但需排除剪接机器突变可能导致的异常选择性剪接,再导致的不同调控性内含子保留的干扰。




安义县15839744344: 生活中如何预防癌症的形成? -
督侦曼欣: 癌症由一个单细胞产生.从一个正常细胞转变为一个肿瘤细胞是一个多阶段过程,通常从癌前病变发展为恶性肿瘤.癌症的形成可由外部因子和继承的遗传因素开始.老龄化是癌症形成的另一个基本因素.癌症发病率随年龄显著升高,极可能是...

安义县15839744344: 糖蛋白什么情况下会增加或减少 -
督侦曼欣: 糖蛋白是由基因的选择性表达及转录翻译形成的,一般只会在细胞向着不死性细胞发展时才会减少,一般不会无故增多.

安义县15839744344: 单细胞生物是否可以发生癌变?如果可以能举个例子么? -
督侦曼欣: 单细胞生物不会发生癌变.首先,癌细胞的概念中主要是指高等生物,尤其是哺乳动物细胞发生了同正常细胞不同的变异,主要是无线增殖的改变,对于低等的单细胞生物,没有癌细胞,癌变的说法;其次,单细胞生物本身的繁殖就像癌细胞,只要环境允许,就可以无限的分裂下去,也即繁殖下去,这是单细胞生物本身的特性,不是癌变;最后,单细胞生物如果基因等发生了变异,会导致两种后果,适应环境,继续或更好的生存下去;不适应环境,被淘汰,但无论哪种后果,都不能称为癌变,把基因变异称为癌变的说法是不正确的.

安义县15839744344: 单核细胞如何转变成巨噬细胞
督侦曼欣: 当单核细胞经血管的内皮细胞层进入一已受损的组织时(这过程被称为白血球外渗作用),它经过一连串转变以成为巨噬细胞.单核细胞会因化学趋向性而被化学物质的刺激吸引至受损处,这些刺激包括受伤细胞、病原体、由肥大细胞和嗜碱性细胞所释放的组织胺,以及由已于该处的巨噬细胞释出的细胞因子

安义县15839744344: 肿瘤的体细胞突变理论获得支持的证据是什么?
督侦曼欣: 根据肿瘤的体细胞突变理论,肿瘤是从单个体细胞、经突变积累的多阶段过程而形成... ① 实验证明,多数肿瘤是单细胞克隆起源; ② 肿瘤细胞存在大量的基因突变和染色...

安义县15839744344: 热带鱼养法 -
督侦曼欣:1.一月: 一月份,大部分地区仍是严冬季节,养鱼水族箱必须保持22—24℃的稳定水温,一刻也不能放松.在漫长的冬季,如水温突然显著降低,热带鱼便会因受寒或则立刻冻死,或则患感冒病. 热带...

安义县15839744344: 癌细胞无限增值的反应机理,还有为什么其表面糖蛋白会减少? -
督侦曼欣: 癌细胞主要特征 无限增殖 每个细胞分裂次数有限,但癌细胞和单细胞生物却是无限的,在于控制细胞分裂次数的机制被改变了,就像计数器定时清零一样,从而获得不死性. 有一种理论 叫端粒说 dna的末端有一段 rna序列 每当细胞分裂一次 ...

安义县15839744344: 减少葡萄糖摄入可使癌细胞膜上糖蛋白含量低于正常体细胞 这句话为什么是错的? -
督侦曼欣: 因为糖蛋白上的糖类不仅存在葡萄糖,还有很多种其它类型的糖类,而且其他物质的消化吸收与转化也能形成葡萄糖的.希望能帮助你.^__^

安义县15839744344: 多细胞生物适合还是单一细胞生物适合基因转化 -
督侦曼欣: 基因转化,专业一点应该说基因转移或者转基因. 理论上什么生物都能进行转基因,单细胞的很容易理解,多细胞一般是对受精卵转基因或者对生殖细胞进行转基因,这样就能使转进来的基因通过遗传传给后代了.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网