【文献】TRUmiCount：使用UMI计算TCR分子数

作者&投稿：犁质（若有异议请与网页底部的电邮联系）

TRUmiCount: correctly counting absolute numbers of molecules using unique molecular identifiers
带着问题读文献：

1，这篇文献讲了个啥？
2，这篇文章为什么能发表在这个杂志上？
3，作者信息：大学信息或者研究所信息？
4，自己对文章的感兴趣的地方？
5，这篇文章是什么领域或者方向？
6，这篇文章在生命科学中的位置？
7，这篇文章解决了什么问题？为什么这个问题这么重要？
https://academic.oup.com/bioinformatics/article/34/18/3137/4972993
文章2018年9月发表在Oxford Bioinformatics上，应该算是很新的一篇文章。

快速通读文章：

Motivation
使用下一代测序(NGS)进行分子计数存在PCR扩增偏倚，这降低了许多基于NGS的定量实验方法(如RNA-Seq)的准确性。这是真的,即使分子是由之前使用独特的分子标识符(umi)的PCR扩增,和不同的umi计算而不是写着:分子失去完全测序过程中仍然会导致低估的分子数,并放大构件(如PCR嵌合体创建幻影umi从而导致高估。

Result
我们引入了TRUmiCount算法来纠正这两种类型的错误。TRUmiCount算法基于PCR扩增和测序的力学模型，PCR效率和测序深度这两个参数具有直接的物理解释，无需校准实验或插入即可从实验数据中估算出来。我们展示了我们的模型捕获了扩增和测序的主要随机特性，它允许我们过滤掉幻像UMIs，并估计测序过程中丢失的分子数量。最后，我们证明了由TRUmiCount计算的经过数字滤波和损失校正的分子计数可以测量真实的分子数量，其准确度远远高于不同UMIs的原始数量，即使大多数UMIs仅按单细胞RNA-Seq的典型顺序测序一次。

扩展：

什么是pcr扩增和测序的力学模型： https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0012355

问题出来了，怎么处理UMI的呢？

1，UMI的合并（merge umi），参考这篇文章 Smith T. et al. (2017) UMI-tools: modeling sequencing errors in unique molecular identifiers to improve quantification accuracy. Genome Res ., 27, 491–499.

提出了一种合并高度相似的错误版本的同一原始UMI的算法，以纠正测序错误和单核苷酸PCR扩增错误。

2，Kivioja提到了对完全没有测序的分子的校正 Kivioja T. et al. (2012) Counting absolute numbers of molecules using unique molecular identifiers. Nat. Methods , 9, 72–74.
但基于泊松分布，严重低估了受影响分子的数量;因为他们的数据相差一个数量级。

一句话总结：假的umi比真的umi 的reads数低的多。

文章指出不依赖于序列相似或复杂的特定于strand的umi标记协议，而是依赖于per-UMI读计数来分离真实的UMIs(即原始样本中实际分子的UMIs)和虚幻的UMIs。嵌合PCR产物通常在较晚的反应周期中产生，因此可以预期具有较小的拷贝数，因此读取计数低于非嵌合PCR产物。索引分配错误和排序错误通常是随机发生的，并且不太可能产生大量显示相同伪UMI的读取。由于这些原因，可以预期，假的UMIs比大多数真实的UMIs(即原始样品中实际分子的UMIs)的读计数要低得多。

一句话总结：

我们的偏置校正和幻影清除算法TRUmiCount利用了幻影和真实UMIs之间预期读取计数的差异。它根据读取计数阈值去除UMIs很可能是幽灵，然后估计并纠正(基因特异性的)损失，即未排序的分子的比例或UMIs被误认为幽灵的分子的比例。对于这个校正，TRUmiCount使用PCR扩增模型，该模型解释了该扩增反应固有的随机性。

2 材料和方法：Materials and methods
2.1 The TRUmiCount algorithm
开始讲算法了：
注意听：
三步法：
第一步：我们通过删除读计数低于适当选择的错误校正阈值(T)的所有UMI来过滤假的UMIs。
第二步：估计loss，（包括没有测到的和第一步错误校正删掉的）这一步是用pcr扩增效率（E），测序深度（D）和测序过程的随机模型来估算的。
这一估计是使用扩增和测序过程的随机模型计算的，其参数为PCR效率(E)和测序深度(D)，表示为初始样本中每个UMI的平均读数。
根据观察到的每个UMI的读数分布，我们为这些参数估计了(原始的)特定于基因的值和整个库的值，并计算了相应的损失估计(详细信息见第2.2节)。

第三步：我们将丢失的UMIs估计值与观察到的真实UMIs(UMIs ≥ reads阈值)的UMIs相加，得到原始样本中的分子总数。由于损失可能因基因而异，为了产生无偏倚计数，校正必须基于特定于基因的损失估计。由于只有很少观察到真正UMIs的基因的原始基因特异性估计固有的噪声，我们使用James-Stein-type收缩估计器(James and Stein, 1961)，将原始基因特异性参数和损失估计调整到整个库中(从而缩小它们的差异)。我们根据每个估算的精度来选择收缩量，从而使预期的总体误差最小化(Carter and Rolph, 1974)(见第2.3节)。

2.2 Estimating the fraction of lost molecules

为了估计损失，即UMIs的读计数低于纠错阈值的分子的比例，我们将PCR扩增的随机模型与NGS的随机抽样模型相结合，建立了per-UMI读计数的分布模型。

2.2.1 PCR扩增随机模型

为了对PCR扩增进行建模，我们使用了Krawczak等人(1989)的单链模型，这意味着我们将PCR视为一个随机过程，在每个周期中，每个分子都以特定的概率E独立复制，称为反应效率。我们进一步假设一个分子被完全复制或完全不复制，即既不产生部分复制，也不产生碱基对序列略有不同的复制，没有分子被破坏或丢失，而且在整个反应过程中效率E保持不变。尽管Weiss和von Haeseler(1997)将该模型扩展到包括放大过程中替换错误的可能性，但是对所有可能的幻质UMIs源进行详尽的建模似乎是徒劳的。因此，我们追求一种不同的方法，只对无错误的情况建模，相信错误纠正阈值可以删除幽灵。因此，在多个周期内，每个分子都被假定扩展为一个具有相同拷贝的分子家族。由于我们使用单链模型，分子对我们来说总是意味着单链DNA片段，我们不能区分一条链和它的反向互补。就我们的目的而言，一条双链DNA由两个无法分辨的分子组成。

在扩增之前，我们假设样品中的所有分子都可以用一些UMI来区分。在放大过程中，这些分子中的每一个都会产生一个分子家族(无法分辨)。这样一个家族的初始规模(即它所包含的拷贝数)是1。在第一次PCR循环,大小增加到2如果最初单一分子复制成功,即概率大肠这个过程的延续,总是使用现有分子作为潜在的模板,复制概率E,产生一个随机序列M0、M1, M2,…第0个分子家庭规模后,1日2日…周期。这个序列形成了一个Galton-Watson分支过程(Weiss and von Haeseler, 1995)，并遵循递归

2.2.2 The normalized family size F
由于Mi的期望成指数增长，Mi的分布在很大程度上依赖于PCR周期计数i 。然而，这种依赖性主要影响的是规模，而不是Mi分布的形状。为了更清楚地看到对形状的影响，用一个期望值为1的重新缩放的版本替换Mi，从而消除对规模的影响。

这些重新调整的家族大小可以通过PCR周期进行比较。

这算法也太复杂了。。

到最后发现是R写的，还需要输入bam文件，算了，好像也有点不太适用，有空再细看吧。

星空见康网

【文献】TRUmiCount：使用UMI计算TCR分子数

你可能想看的相关专题