生信课程笔记12-负二项分布与测序

作者&投稿：皮仪（若有异议请与网页底部的电邮联系）

随机试验的样本空间为Ω，如果对于每一个样本点ω∈Ω，有一个实数X(ω)与之对应，这样得到一个定义在Ω上的单值函数X=X(ω)，则称X(ω)为 随机变量 ，简记为X。也就是说，随机变量X是一个从Ω到实数域R的函数，它的定义域为Ω，它的值域X(Ω)为R或R的一个子集。通常用X,Y,Z表示随机变量，用x,y,z表示随机变量的取值。引入随机变量是为了将随机试验数量化，便于对其规律性进行研究。

例如，随机将一枚均匀的硬币投掷两次，则样本空间为Ω={++, +-, -+, --}，如果关心得到正面的次数，则可以对结果ω=++, +-, -+, --定义随机变量X(ω)=2,1,1,0。

如果随机变量的值都可以逐个列举出来，则为 离散型随机变量 。如果随机变量的取值无法逐个列举则为 连续型随机变量 。只要是能够用我们日常使用的量词度量的取值，比如次数、个数等都是离散型随机变量。如果无法用这些量词度量，取值为某个区间上的值，可以取到小数点2位、3位、甚至无限多位的时候，那么这个变量就是连续型随机变量。

事件的概率表示了一次试验中某一个结果发生的可能性大小。 概率函数 ，就是用函数的形式来表达概率。 概率分布 ，就是概率的分布，用于表述随机变量取值的概率规律。连续型随机变量的概率函数又叫做 概率密度函数 ；离散型随机变量的概率函数又叫做 概率质量函数 。

概率分布（probability distribution）描述了随机变量（random variable）在给定范围内可以接受的所有可能的值和似然（all the possible values and likelihoods） 。概率分布的形状的影响因素包括平均值（mean or average）、标准差（standard deviation）、偏度（skewness）、峰度（kurtosis）。某些现象数据生成的过程将决定其概率分布，这一过程称为概率密度函数，概率分布描述给定数据生成过程可能值的预期结果。

离散型概率分布包括：伯努利分布、二项分布、几何分布、泊松分布等。

连续型概率分布包括：正态分布、指数分布等。

离散型随机变量 ：设xi (i=1,2,3,4,5,6)为离散型随机变量X的所有可能取值，事件{X=xi}的概率P{X=xi} = pi (i=1,2,3,4,5,6)。

公式pi = P(X=xi) (i=1,2,3,4,5,6)就是 概率函数 ，自变量（X）是随机变量的取值，因变量（pi）是取值的概率，公式表示了每个取值的概率。从公式上来看，概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6，这代表用概率函数的形式来表示当随机变量取值为1的概率为1/6，一次只能代表一个随机变量的取值。

把所有可能出现的取值和取值的概率全部都列出来，称为 离散型随机变量的值分布和值的概率分布列表 ，即X的 分布列（率）， 常写成表格形式：

概率分布律（law of probability distribution）简称概率律或 概率分布 。

分布列的性质：非负性：pi≥0；规范性：Σpi=1。

分布函数/概率分布函数（probability distribution function）， 又叫 累计概率函数/累积分布函数（cumulative distribution functions，CDFs）， 是概率函数取值的累加结果。

设X是一个随机变量，对任意实数x，定义F(x)=P (X≤x)为随机变量X的 分布函数 ，且称X服从F(x)，记为X~F(x)。

F(x)是一个普通函数，其定义域为(-∞,+∞)，F(x)的值为事件{X≤x}的概率。

分布函数的性质：单调不减性；规范性（总是从零开始，以100%结束）；右连续性。

连续型随机变量的分布函数F(x)是连续函数。连续型随机变量X 在某一点a的概率P{X=a} = 0，概率为0的事件未必是不可能事件。

对于离散型概率分布，我们关心的是取得一个特定数值的概率；对于连续型概率分布，不可能列举每一个精确数值，更关心一个特定范围的概率。

连续型随机变量X，分布函数

f(x)称X的 概率密度函数或分布密度函数 。 概率密度函数是分布函数的导函数，概率密度函数的曲线下面积总和为1 。

概率密度函数f(x)的性质：非负性：f(x)≥0；规范性。

最常见的概率分布是正态分布，或钟形曲线（bell curve）。

X~N(μ, σ^2)

期望（expected value） E = μ

方差（variance） D = σ^2

标准差（standard deviation）σ

特点：曲线关于x=μ对称；当x=μ时p(x)取得最大值；当x→±∞时，p(x)→0；曲线在x=μ±σ处有拐点；曲线以x轴为渐近线；σ决定曲线的形状，σ越大，曲线越矮平。

标准正态分布定义为平均值等于0，标准偏差等于1的正态分布。横轴表示(x-μ)/ σ。

研究的是事件的时间间隔的概率。例如：收到两条微信之间的时间间隔，某视频被播放的时间间隔。

指数分布的特性：无记忆性。比如灯泡的使用寿命服从指数分布，无论它已经使用多长一段时间，只要还没有损坏，它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样。表示为X~E(λ) 。

X~U(a, b)

f(x) = 1/(b-a)，a≤x≤b

均值 E = (a+b)/2

方差 D = (b-a)/√12

随机变量X只有两个可能的取值a和b，其概率分布为： P{X=a} = p, P{X=b} = 1-p (0<p<1)

两点分布中a和b取值分别为1和0的特殊情况。伯努利试验是只有两种可能结果（成功p或失败1-p）的单次随机试验。其概率分布为：

P{X=1} = p, P{X=0} = 1-p (0<p<1)

期望 E = p

方差 D = p(1−p)

是n重伯努利试验成功次数的离散概率分布。每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。在n次独立重复试验中，成功出现x次的概率：

称X服从参数为n, p的二项分布，记为X~B(n, p)。

均值 μ = np

方差 σ^2 = np(1-p)

泊松分布适合于描述单位时间（或空间）内随机事件发生的次数（事件发生的次数只能是离散的整数）。如汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数，一块产品上的缺陷数，显微镜下单位分区内的细菌分布数等等。

二项分布中，如果p非常小，并且n非常大，则成为泊松分布。

λ是事件发生的速率，t是时间间隔的长，X是该时间间隔内的事件数。μ表示长度为t的间隔中的平均事件数，那么µ = λt。

X~P(λ)

均值 μ = λ

方差 σ^2 = λ

μ是泊松分布所依赖的唯一参数，μ值越小分布越偏倚，μ=20时分布接近正态分布，μ=50时可以认为呈正态分布。

每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。重复试验，直到预定的失败数发生r次，那么成功的次数X会服从负二项分布。

X~NB(r, P)

该公式描述的是，在合格率为p的一堆产品中，进行连续有放回的抽样，当抽到r个次品时，停止抽样，此时抽到的正品正好为k个的概率。

进行两组数据间的差异分析，通常可以用方差分析判定两组分布数据间是否存在显著差异，当组间方差大于组内方差，并且统计学显著时，则认为组间处理是可以引起差异的。而在RNA-seq中，问题是实验重复数量很少，counts是非连续的（芯片信号是连续的），这些数据并不符合正态分布。我们面临两个核心问题：基因表达数据适合用什么统计学分布进行差异显著性检验？如何利用少量生物学重复数据估算基因表达的标准差？

从统计学的角度出发，进行差异分析肯定会需要假设检验，通常对于分布已知的数据，运用参数检验结果的假阳性率会更低。转录组数据中，raw count值符合什么样的分布呢？count值本质是reads的数目，是一个非零整数，而且是离散的，其分布肯定也是 离散型分布 。对于转录组数据，学术界常用的分布包括泊松分布（poisson）和负二项分布（negative binomial）两种。

dispersion指的是离散程度，研究一个数据分布的离散程度，我们常用方差这个指标。对于泊松分布而言，其均值和方差是相等的，但是我们的数据确不符合这样的规律。

横坐标为均值，纵坐标为方差，真实数据的分布是偏离了泊松分布的，方差明显比均值要大。称为over dispersion（过度离散）。因此选择泊松分布分布作为总体的分布是不合理。

在RNA-seq中，技术误差(sampling variability)是满足泊松分布的，因为期望和方差差不多。但是生物学重复之间的误差(biological variability)不能用泊松分布来描述，因为它的方差可能很大，所以要用负二项分布，加了一个额外的误差项。

负二项分布均值是方差的二次函数，方差随着均值的增加而进行二次函数形式的递增。

有三种R包（edgeR，DESeq，baySeq）实现的方法是基于负二项模型的。

测序计数数据的特点包括非正态性、方差对均值的依赖等。将reads计数Kij建模为负二项分布，只是因为目前人们认为reads的分布情况更符合负二项分布。这个负二项分布具有两个参数，均值（mean）μij和离散（dispersion）αi。组内变异由 离散参数αi 建模，该参数通过Var Kij = μij + αi μij^2描述计数的方差。离散参数αi的准确估计对于差异表达的统计推理至关重要，但是在生物学重复很少时，很难准确计算每个基因表达的离散程度。在DESeq2中， 假设平均表达强度相似的基因具有相似的分散性 ，从而跨基因共享信息，对离散度进行收缩（shrink）。

生信课程笔记12-负二项分布与测序
负二项分布均值是方差的二次函数,方差随着均值的增加而进行二次函数形式的递增。有三种R包(edgeR,DESeq,baySeq)实现的方法是基于负二项模型的。测序计数数据的特点包括非正态性、方差对均值的依赖等。将reads计数Kij建模为负二项分布,只是因为目前人们认为reads的分布情况更符合负二项分布。这个负二项分布具有两...

生物信息学笔记-术语篇
它是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。 r值就是皮尔逊相关系数的大小,代表了相关的强度,即两个变量共变性的程度,取值范围为(-1,1)。p值是显著性,与皮尔逊相关显著性检验有关,P<0.05时表示相关显著,即在当...

生信课程笔记11-关于p值
1. 建立检验假设，确定检验水准 2. 选择并计算检验统计量 3. 确定p值，做出推断统计假设是一种关于感兴趣的总体的陈述。一般我们有一个原假设\/零假设\/无效假设\/H0\/ null hypothesis 和一个备择假设\/替代假设\/HA\/alternative hypothesis 。无效假设通常代表“无效”的状态，即“没有影响、没有效果...

重庆市黔江区的中考试题和重庆市区一样吗? 如果想考重庆市的高中,可以...
(或美丽的形象禁欲的绅士:不同流合污的,世俗的,庄严的,简单的,不哗众取宠,不炫耀自己的诚信和严重的,大方的和开放的态度,不相信名气,禁欲)12负,兰花,兰花后绽放的是未知的,静静地散发着芬芳,纯净简约的优雅,不张扬,不媚俗质量。例2:梅花,梅花香自苦寒来,梅花凌霜傲雪,在逆境中开拓进取的精神,克服困难。例3...

重庆大学戏剧与影视学考研经验?
part4 12月初-考前 ①背肖四大题!必须背!果然又压中了好几道大题,你大爷永远是你大爷 ②做选择题 --腿姐的四套卷、肖四的选择题做选择题的时候要找出薄弱的知识点,回头翻课本翻笔记,整理易错题专业课因为我是跨专业考研,所以专业课的话我还挺打怵的。主要从参考书、学习方法、时间安排三个方面展开。

给青年的十二封信读书笔记
第二,读过一本书,须笔记纲要和精彩的地方和你自己的见解。《谈动》烦恼是一种病态。哲学与人生观无济于事—缺乏修养。我们都不过是自然的奴隶,要征服自然,只得服从自然。违反自然,烦恼才趁虚而入,要排解烦恼,也须得使你的自然冲动有机会发泄。愁生于郁,解愁的方法在泄;郁由于静止,求泄的方法在动。《谈静》...

【授信笔记-行业梳理】煤炭行业之十四大煤炭基地特征分析
12、宁东煤炭基地宁东基地主要分布在宁夏东北部，包括石嘴山矿区、石炭井矿区、横城矿区、鸳鸯湖矿区等。煤种以低灰、低硫、高发热量不粘煤为主，是煤炭液化和电厂的优质原料。该基地主要由神华宁煤集团负责开采。13、黄陇煤炭基地黄陇煤炭基地与陕北煤炭基地毗邻，包括黄陵矿区、华亭矿区，探明储量约150...

朱孟实《给青年的十二封信》阅读笔记
在强烈的社会责任感驱使下,朱光潜分期写了十二封信,对象是有中学程度的青年。他结合自身经验和时代社会的需求,以平易近人的口吻,给出有利于青年个人发展的忠告,希望“对现在的青年,有些力量!” 谈读书青少年应下定决心,争取在闲余时间内多读些课外书。他考虑到有人会以“太忙”找借口,举出富兰克林和孙文的例子...

东南大学信息安全考研经验分享?
2021年5月-6月,我又听了武忠祥的高数基础课搭配着做了他的660,这里我边听武忠祥的高数课边做笔记,这个笔记整个考研过程中我都有在反复看,到了考试那天我大概看了8遍左右(因为数学一的知识点太多了,看了忘,忘了就得看),一定得反复多次。2021年7月-9月,我看了张宇的18讲讲义(没听他的课,感觉很浪费时间,...

《给青年的十二封信》读书笔记
《给青年的十二封信》是朱光潜先生在留欧求学期间,以中学生为主要对象,以书信方式撰写的谈人生方面的文章。“十二封信”中涉及青年们课外阅读、作文、升学、选课、爱恋、社会活动,以及国民的劣根性、教育的弊端等,给青年们谈论修养,指点迷津,娓娓道来,十分有亲和力又言之有物有理有情。摘录如下: 1.你能否在课外...

北辰区13066431468： 学习英语有窍门吗 - ？
司马到二维： 怎样学好英语想学好英语,首先要培养对英语的兴趣.“兴趣是最好的老师”,兴趣是学习英语的巨大动力,有了兴趣,学习就会事半功倍.我们都有这样的经验:喜欢的事,就容易坚持下去;不喜欢的事,是很难坚持下去的.而兴趣不是与生...

北辰区13066431468： 怎么样快速学英语 - ？
司马到二维： 如何快速学好英语及方法1: 想学好英语,首先要培养对英语的兴趣.“兴趣是最好的老师”,兴趣是学习英语的巨大动力,有了兴趣,学习就会事半功倍.我们都有这样的经验:喜欢的事,就容易坚持下去;不喜欢的事,是很难坚持下去的....

北辰区13066431468： 2021海南三亚中考志愿 ？
司马到二维： 2021海南三亚中考志愿什么时候填问:2021海南三亚中考志愿什么时候填答:2021... [副本_副本_未命名_自定义px_2020-02-20-0. png]做好数学课堂笔记的五个技巧首先...

北辰区13066431468： 铜仁英语培训平台 ？
司马到二维： 上网学吧给你介绍几个高考状元的经验英语篇 1. 安徽理科状元:耿泉毕业中学:安徽省灵璧一中高考总分:688分(含10分加分) 单科成绩:语文122分、数学134分、...

北辰区13066431468： ChIP - seq测序后该做哪些生物信息学分析 - ？
司马到二维： ChIP-seq测序后该做哪些生物信息学分析高通量数据类型主要包括基因芯片和基因测序,我估计你想知道的是具体的内容. 具体的内容其实是指的高通量测序技术的应用,例如microarray,RNA-Seq,Exome-Seq,Target-Seq,Whole-genome-...

北辰区13066431468： 生物信息学是干什么的? - ？
司马到二维： 生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科. 它通过综合利用生物学,计算机科学和信...

北辰区13066431468： 上海交通大学生物信息学怎样?生物信息学前景怎样? - ？
司马到二维： 的确不错,复旦大学和同济大学的也可以考虑的.现在生物信息学前景不错的,因为二代测序和三代测序使得基因信息的获得更加方便快捷以及低价,所以很需要这方面的人才.

北辰区13066431468： 生物信息学的课程安排有哪些?化学一定要学吗? - ？
司马到二维： 化学对每个学生物的学生来说都是必要的,我是这个专业的本科生...

北辰区13066431468： 怎样学好英语呢? - ？
司马到二维： 多听~多读~多写~多说~英语没有捷径可走的~~~每天一篇阅读(和你学习的程度差不...

你可能想看的相关专题

星空见康网

生信课程笔记12-负二项分布与测序

你可能想看的相关专题