2019-05-21-多基因联合建树软件astral方法

作者&投稿:植怕 (若有异议请与网页底部的电邮联系)
~ astral是基于java开发的根据一组无根的genetrees建立speciestree。

运行astral不需要安装,但是需要在java环境下运行。

astral没有图形界面,需要在命令行下运行。

运行后可以看到astral的options。如果运行没有错误,说明安装成功了。

-o 输出

输入文件是含有所有genetrees的Newick格式的文件。输入的genetree被当做unrooted tree,不管他们是否有根。astral的输出也是被当做unrooted tree。输入的genetree支持多分支。

输出的结果是Newick格式,可以用很多软件查看。

astral测量branch length 是用coalscent units。不是我们通常认为的boostrap value

-q参数
得到的是quartet score 和branch length 和 branch support values。0.9表示genetree产生的quartet tree的90%存在于species tree中。为树打分的命令如下:

与simulated_14taxon.gene.tre进行比较后,会为物种树simulated_14taxon.default.tre打分。

表示来自genetree的4803个quartet trees存在于species trees中。4803个quartet trees占所有的quartet trees的47.98%。这个数据集的ILS水平很高。导致这个结果,也就是genetree和species tree的不一致性很高。

当你得到一个species tree或者用-q参数为树打分,你将会得到每一个分支的branch length 和local posterior support 。除了这些默认的参数,还可以输出其他branch 信息。无根树的每一个branch都有四组。分别是first child (L), the second child (R), the sister group (S), and everything else (O)。两两配对,可以得到三种拓扑结构。其中一种就是当前树的拓扑结构。剩下的就是可选的两种拓扑结构。astral可以不仅仅得到当前树的local posterior probability,也能计算剩下的两种拓扑结构的。-t 参数

命令如下

阅读几个分支给出的所有值,并理解他们。

用Yule prior model 计算speciestree 的branch length的local posterior probabilities 和branch lengths。Yule process的物种形成速率(in coalscent units)默认值设置为0.5,导致quartet 频率在[1/3,1]之间是平稳的。(并不理解)用-c的选项可以调节hyper-parameter。

astral 可以不通过bootstrapping输出branch support value.这种support比bootstrapping更加可靠(在作者的数据下)。尽管,你可能还是想得到bootstrapping。astral可以进行multi-locus bootstrapping。为了开展multi-locus bootstrapping,astral需要访问每一个gene的boostrap replicate trees。
例如:
你需要提供所有gene tree bootstrap replicates的位置。在测试数据中进行bootstrapping。
1.进入test_data目录
2.解压called song_mammals.424genes.bs-trees.zip.
3.然后运行

然后会run100次bootstrapping。

1.-i 包括所有的MLgenetrees(就像不计算bootstrap也要输入的)
2.-b 告诉astral 需要计算bootstrap value。-b 后面的文件 bs-files 包含了genetree bootstrap files的文件路径,一行一个gene。例如:
424genes/100/raxmlboot.gtrgamma/RAxML_bootstrap.allbs

1.100 bootstrapped replicate trees,每一个都是对一组bootstrap gene trees进行running astral 的结果。
2.A greedy consensus of the 100 bootstrapped replicate trees; this tree has support values drawn on branches based on the bootstrap replicate trees. Support values show the percentage of bootstrap replicates that contain a branch.
3.The “main” ASTRAL tree; this is the results of running ASTRAL on the best_ml input gene trees. This main tree also includes support values, which are again drawn based on the 100 bootstrap replicate trees.(不懂)
注意:support value以百分数的形式展示。而local posterior probabilities是0-1之间的数。当astral 计算bootstrapping时,它会持续输出每一个重复的bootstrapped astral tree.因此,如果replicate 被输入成100,它将会输出100个数,然后,输出100 bootstrapped trees 的greedy consensus。(不懂)最后,它会开展主要的分析 (-i参数的文件)然后计算主要树的branch support。这个示例中就是102trees。

默认值是100,-r 参数可以设置任何数量的重复。但是要保证你的genetree的bootstrap file 的bootstrap replicates 要多于你的-r参数后面的设置。

astral 开展site-only的resampling,可以用-g参数。

这时候我们需要更多的genetree replicates。如果是-g -r 100,对于某些gene那可能需要150 replicates。因为在genes resampled的时候,一些gene抽到的概率会比其他的gene更多。

astral展开gene-only bootstrapping 用--gene-only的option。这个只要one inputfile。用-i 参数就可以了,对于这个就不要使用-b参数。

由于引导涉及一个随机的过程,我们可以提供一个seed number给astral 保证重复性。seed number 可以有-s进行设置。默认的参数是692.

astral 有exact 和heuristic 的version。当taxa的数目较少的时候,exact version 会节约时间。但是分类不能超过37个。

-x参数就是开启exact version。大约30秒。同样的,我们可以使用默认的heuristic启发式搜索法

这就只有1秒,那么他们的运行结果有何不同呢?其实是一致的

The default primate dataset we used in the previous step had 424 genes and 14 taxa. Since we have a relatively large number of gene trees, we could reasonably expect the exact and heuristic versions to generate identical output. The key point here is that as the number of genes increases, the probability that each bipartition of the species tree appears in at least one input gene tree increases. Thus, with 424 genes all bipartitions from the species tree are in at least one input gene tree, and therefore, the exact and the heuristic versions are identical.

We tried hard to find a subset of genes in the biological primates dataset where the exact and the heuristic versions did not match. We couldn't! So we had to resort to simulations. We simulated a 14-taxon dataset with extreme levels of ILS (average 87% RF between gene trees and the species tree). Now, with this simulated dataset, if you take only 10 genes, something interesting happens.
运行:

这时得分会有一点不同,topology也会不同。因此,在极端的情况下(ILS水平较高,genetree错误较多或者较分类来说可用的genetrees较少比如14类群只有10个gene,较之前的424gene就是较少)。那么就可以观察到两种算法的差异。

为了expand search space ,运行:

这里的-e参数用于输入一组extra trees 用于扩展astral的搜索空间。这个文件为10个simulated genes提供了200 bootstrap replicates 。-f 用于当input tree 有species labels代替gene label 的时候。

大数据集(>500taxa)增加memory available to java。
run

-m: 移除含有少于指定叶子数量的gene。对于需要一定分类级别的taxon occupancy 是有用的。后面设置数量。
-k completed : To build the set X (and not to score the species tree), ASTRAL internally completes the gene trees. To see these completed gene trees, run this option. This option is usable only when you also have -o(不懂)
-k bootstrapped 和-k bootstraps_norun:these options output the bootstrap replicate inputs to ASTRAL. These are useful if you want to run ASTRAL separately on each bootstrap replicate on a cluster.
-k searchspace_norun:输出search space然后退出。
----polylimit:
--samplingrounds:For multi-individual datasets, this option controls how many rounds of individual sampling is used in building the constraint set. Adjust to reduce/increase the search space for multi-individual datasets
文章参考:[ https://github.com/smirarab/ASTRAL/blob/master/astral-tutorial.md#running-on-a-multi-individual-datasets]


名侦探柯南集数名称
019 电梯杀人事件 020 鬼屋杀人事件 021 电视台外景队杀人事件 022 豪华客轮连续杀人事件(上集)023 豪华客轮连续杀人事件(下集)024 丧失记忆的美少女事件 025 真假人质绑票事件 026 爱犬约翰杀人事件 027 小五郎同学会杀人事件(上集)028 小五郎同学会杀人事件(下集)029 计算机杀人事件 030 不在...

GBA《口袋妖怪绿宝石386》 求所有怪兽的进化等级表!
1、NO.001(妙蛙种子):在101号道路遇得 2、NO.002(妙蛙草):由妙蛙种子在16级时进化而来 3、NO.003(妙蛙花):由妙蛙草在32级时进化而来 4、NO.004(小火龙):在101号道路遇得 5、NO.005(火恐龙):由小火龙在16级时进化而来 6、NO.006(喷火龙):由火恐龙在36级时进化而来...

conan 全集列表
055 列车圈套杀人事件 (列?トリック?人事件) 1997\/04\/21 动画原创 KK056 清洁公司杀人事件 (おじゃマンボウ?人事件) 1997\/04\/28 动画原创 KK057 福尔摩斯迷杀人事件(前编) (ホ?ムズフリ?ク?人事件(前?)) 1997\/05\/05 KK058 福尔摩斯迷杀人事件(后编) (ホ?ムズフリ?ク?人事件(后?)) 1997\/05...

名侦探柯南每集名
1997-04-21 055 列车圈套杀人事件 列车トリック杀人事件 1997-04-28 056 清洁公司杀人事件 おじゃマンボウ杀人事件 1997-05-05 057 福尔摩斯迷杀人事件(前篇) ホームズフリーク杀人事件(前编)1997-05-12 058 福尔摩斯迷杀人事件(后篇) ホームズフリーク杀人事件(后编)1997-05-19 059 首次...

神奇宝贝绿宝石439金手指要用的起的!用不起绝不采纳!
最佳答案 1、道具金手指 只能通过修改在商店里购买的物品来获得道具,修改方法如下:在道吉镇的商店买物品,选好购买数量后,等服务员问你是否要买下道具时,不要急着按A,先输入下面这条金手指:03005B72:XX XX是物品的代码(见下表),输入后买下道具,之后删除金手指就可以了。道具列表 球 0001 ...

口袋妖怪红宝石攻略
21.这里的GYM使用的是格斗系的,战胜他之后照例给了你一个勋章。22.从上面出镇子,可以拿到5号密传机器(闪光)。23.进山洞,到了上层,看到一个家伙又给了你道具就跑了。24.继续坐船,选第2个地方,这里是一个海滨城市。25.海族管门口被火之团(蓝宝石里是水之团)的家伙给围住了进不去,出镇...

双色球.02.09.17.26.27.28开过没有
对比结果如下:开出过 4 个红球 5 次,开出过 3 个红球 56 次(略)第2010081期 02 03 09 24 26 27 + 05 第2008101期 09 17 21 26 28 30 + 04 第2008019期 02 09 11 17 27 31 + 05 第2006101期 09 12 20 26 27 28 + 16 第2004021期 05 09 11 17 26 27 + 10 ...

求声优豊口めぐみ的详细资料
011 爱じゃない 歌:Flower Children 作词:広井王子 作曲・编曲:大友博辉 AYCM606-06 1998\/05\/21 012 瞳を闭じないで(Ⅰ Chorus Version) 歌:豊口めぐみ 作词:大森祥子 作曲:松原みき 编曲:大友博辉 TYCY5598-01 1998\/05\/27 013 破れかけた地図(Ⅰ Chorus Version) 歌:豊口めぐみ 作词:大森...

求口袋妖怪红宝石的所有金手指代码
红蓝宝石金手指:0013:恢复药(全恢复体力与所有状态)0019:精神草(死亡全恢复体力)0025:pp最大(1只怪兽的全部技能值全恢复)003f:最大上升(体力基础值提高)0040:赞美语(攻击基础值提高)0041:落海夫(防御基础值提高)0042:因得西(敏捷基础值提高)0043:立麦森(特攻基础值提高)0044:...

火车t81车05车厢040靠窗吗
火车t81车05车厢040靠左侧窗户,详细如下所示:

呼伦贝尔市19229131958: 部分区域C - N1级是癌吗
司宁薏芽: 一般不是.抗癌推荐“五芝菌药”,国家专利,集“抑杀癌细胞、修复受损基因和细胞、提高免疫力、补充营养能量和抗癌微量元素等”于一体,全方位、多层次抑杀癌细胞、让癌细胞的躲避机制失灵;抗癌与修复调理相结合,调动一切抗癌有利因素,让癌细胞失去体内生存、滋养的环境,标本兼治,从根本上阻止癌细胞再生.也可辅助手术和放化疗等,弥补手术、放化疗等治疗的不足,实现尽快好转,以及预防复发转移等.祝好!

呼伦贝尔市19229131958: 好,点痣一个多月了,红不红黑不黑,怎么办 - 小儿皮肤科 - 复禾健康
司宁薏芽: 不正确.多指、红绿色盲、白化病是常见的单基因遗传病.21三体综合征属于染色体异常的遗传病.1、单基因遗传病分为五种小类型:(1)常染色体显性遗传病:多指、并指、软骨发育不全 (2)常染色体隐性遗传病:先天性聋哑、白化病、软骨发育不全、镰刀形细胞贫血症;(3)伴X染色体显性遗传病:抗维生素D佝偻病;(4)伴X染色体隐性遗传病:红绿色盲、血友病、进行性肌营养不良;(5)伴Y染色体遗传病:外耳道多毛症.2、多基因遗传病主要有原发性高血压、冠心病、哮喘病、青少年型糖尿病、唇裂、无脑儿;3、染色体异常遗传病主要有两种类型:(1)常染色体异常:猫叫综合征、21三体综合征;(2)性染色体异常:性腺发育不良.希望可以帮助到您.

呼伦贝尔市19229131958: 我肚脐眼周围痛怎么回事 - 外科 - 复禾健康
司宁薏芽: A、人类的血友病是由于基因突变导致的,且位于X染色体上,A正确; B、21三体综合征为染色体异常遗传病,B错误; C、镰刀型细胞贫血症也是基因突变导致的,但位于常染色体上,C错误; D、冠心病为多基因遗传病,D错误. 故选:A.

你可能想看的相关专题

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网