一千个植物转录组和绿色植物的系统基因组学

  没有使用统计方法来预先确定样本量 。尽管基因组重复分析中包括的模拟确实包括从随机分布中绘制的模拟 ,但实验并非随机。在实验和结果评估中,研究人员并未对分配视而不见。   如其他位置所述的39,67,68所述,从所有物种中分离出从所有物种中分离出RNA 。某些物种还包括生殖组织(补充表1)。成绩单组件 ,污染物鉴定和基因家庭限制也如前所述进行39,并在补充方法中进行了更详细的描述。   使用星体对单拷贝基因树进行了分析,以说明由于谱系不完全排序15,69的基因树之间的变化 。对根据未上线的氨基酸比对 ,第一和第二密码子,具有未加权的BINS70,71和过滤的分类单元组(如下所述的“ Rogue”分类群)估算的基因树进行了星体分析,并进行了估算的估计 ,该估计值是否可以效应33%的效果。(补充图6)。Binning在单胎垃圾箱中留下了大多数基因 ,对整个物种树的影响最小 。除非另有说明,否则我们使用“星体拓扑 ”来指根据410个未扣除的氨基酸比对推断的树,其中支撑为33%或更少 。此外 ,使用先前描述的方法72对串联的核基因比对和串联的质体基因比对进行了超髓分析。所有用于对核基因数据进行分析的脚本均可在https://doi.org/10.5281/zenodo.3255100获得。   我们基于每个基因的预测氨基酸序列和强制DNA序列建立了多个序列比对,以符合氨基酸比对 。我们首先将每个基因中的序列分为两个子集,分别为全长和异常序列 ,然后使用带有默认设置的Pasta73来对齐全长序列,然后UPP74将异常序列添加到全长比对中。我们被指定为异常,比全长基因序列的中位长度短66%或66%。一旦获得了UPP对准 ,我们将其从它们中删除,即(即插入)位点 。然后,DNA比对从氨基酸序列比对(FAA2FNA)得出 ,并且由于GC含量的物种变化之间的极端变化,将第三个密码子位置去除(补充图7)。为了减少运行时间,我们从包含超过90%差距的对齐中掩盖了所有站点。最后 ,由于在基因树估计中包含碎片数据可能是有问题的75 ,因此我们删除了至少有67%位点过滤的位点的差异的任何序列(根据模拟结果选择了67%的阈值75) 。在我们分析中使用的1,178个加入中410个单拷贝基因的基因序列占用率显示为频率直方图(补充图4)和热图(补充图5)。   除了过滤gapp节位点和碎片序列外,我们还鉴定并去除了放置在其各自基因树上的非常长的分支上的序列。为了识别这些,我们使用初始对齐来构建基因树(见下文) 。然后 ,我们通过找到将最大的群体独家组或红藻类分类单元组分开的两部分来扎根每个基因树。如果该基因完全缺少红色藻类,我们使用了glaucophyta,prasinocokococcales ,prasinophytes,volvox carteri,reinhardtii或klebsormidium nitens。然后 ,我们删除了所有具有四个标准偏差的根到尖端距离的序列,该序列比每个基因树中的根对尖端距离的中位数更长 。一旦去除了长分支上的这些序列,就使用上述相同的方法重新估算了对齐 ,并估计了新的基因树 。   为了估算基因树,我们使用了RAXML v.8.1.1776,其中一棵起始树来建造初始树(用于长支流过滤) ,而10种不同的起始树作为最终的基因树。通过100个重复的自举评估支持。对于DNA分析 ,使用了GTR替代模型和伽马分布的位点速率 。对于氨基酸序列,我们使用了一个从RAXML网站改编的PERL脚本在每个基因的固定起始树上搜索16个不同的替代模型,并选择了具有最高可能性的模型(JTT ,JTTF或JTTDDCMUT选择了410个基因中的349个)。对于氨基酸树,我们还使用了伽马分布的现场速率。   我们使用Astral-II15 v.5.0.3根据所有410个基因来估算物种树 。使用384个基因,每个基因至少包括一半的物种仅更改了3个低支持分支。我们使用多洛克斯自举77,78和星体的内置局部后验概率来估计分支支撑69并测试多构象79 ,这是根据基于最大样性基因树估计的物种树来绘制的。我们还使用星体(版本4.11.2)的内置功能来计算与物种树中每个分支一致的基因树的百分比,通过找到在分支周围定义的基因树四重奏的平均数量(从每一方面选择一个分类单元),这些基因树(从每一侧选择一个分类单元)与物种和迪斯科氏菌80的物种一致(图4) 。在410个单拷贝基因树中的每个物种的中值表示为82.4% ,其中有88.2%和67.1%的物种,分别为410%或410个单拷贝基因的组件分别为50%或75%。关于系统发育方法论的大量工作已经确定,基因和物种树估计对于缺失数据可能是可靠的 ,尤其是在密集的分类单元采样75,81,82的情况下。最近的论文甚至在丢失的数据下建立了统计一致性83 。在串联分析84,85,86的背景下,也存在类似的鲁棒性证据。   所有超级分析均基于过滤的氨基酸和第一和第二密码子位置比对,其中包括至少一半的384个基因物种。(1)未经过滤的超级通用使用基因比对;(2)eudicot超级久期仅保留超元中的eudicot物种;and the (3) supermatrices with eight ‘rogue’ taxa removed (Dillenia indica, Tetrastigma obtectum, Tetrastigma voinierianum, Vitis vinifera, Cissus quadrangularis, ‘Spirotaenia’ sp., Ceratophyllum demersum and Prasinococcus capsulatus) that varied in placement among our full ASTRAL, supermatrix and plastid基因组分析 。在分析中 ,支撑良好的分支顺序是稳定的(补充图6) 。   使用审查V.3.0.1487进行了最大可能的超髓分析。与基因树分析相似 ,使用了所有最大样品的超级马trix分析,跨站点的速率异质性的伽马模型。为了更好地处理跨基因的模型异质性,我们将超元素分为分区 。对于氨基酸比对 ,在基因树估计过程中为每个基因家族选择的蛋白质模型用于将基因分为分区,从而在每个替代模型中创建一个分区。对于核苷酸比对,我们使用RAXML v.8.1.2176估算了每个密码子位置(第一和第二位置)的GTR过渡速率参数和Alpha形状参数。然后 ,我们使用主成分分析将每个基因的最大样品参数值投影到二维平面88 。我们在R90中执行了K-均值群集89,将密码子位置分为分区,选择k = 8 ,占变异的80%。可以在https://doi.org/10.5281/zenodo.3255100上找到源自核苷酸对齐的树木。   为了检查起始树对最后一棵最终树的可能性的影响,我们对较早版本的超级膜进行了初步分析 。我们使用raxml v.8.1.21生成了九种不同的最大值,并使用fasttree-2 v.2.1.591使用了一个最大样品的起始树。然后 ,我们在每棵起始树上进行检查,并指出最终的最大样本得分。我们发现,在所有情况下 ,使用FastTree-2最大样本开始的审查最大样树的最大可能分数比使用最大偏见的启动树更好的最大样本得分更好 。因此 ,对于所有SuperMatrix分析,我们使用FastTree-2来生成我们的初始起始树。从100个bootstrap复制中推断出最终树的分支的支持。   群体外的群体分类群用于植根所有使用核基因(所有星体和超级分析)估计的所有物种树 。使用Rhodophyta作为外组植根于Viridiplantae的Plastome Supermatrix树 。   对于每个转录组,我们使用Duppipe管道来构建基因家族并估计基因重复的年龄分布16,17。我们通过将GeneWise92比对与来自Phytozome93的25个植物基因组收集的最佳蛋白质的最佳蛋白质进行比较 ,翻译了DNA序列并鉴定了阅读框。对于所有Duppipe运行,我们使用蛋白质引导的DNA比对来对齐我们的核酸序列,同时保持阅读框 。我们使用PAML与F3X4 Model94估计了基因家族系统发育中每个节点的同义差异(KS)。我们将基因复制的峰值确定为基因重复年龄分布(KS图)的直方图的古代WGD的证据。我们通过使用Kolmogorov – Smirnov的拟合test95进行比较 ,通过将其旁程年龄分布与模拟零值进行比较,从而鉴定了具有潜在WGD的物种 。然后,我们使用混合物建模和手动策展来识别与潜在WGD一致的显着峰 ,并估计其中值旁系同源物KS值。使用R96中包装混合台的boot.comp功能中的似然比测试确定了显着的峰值。   为了将假定的WGD与谱系差异相关,我们估计了一对物种之间直系同源物的同义差异,这些物种可能会根据其系统发育位置和物种内部ks图中的证据共享WGD 。我们使用RBH直系同源管道17来估计直系同源物的平均值和中位同义差异 ,并将其与推断的古多倍度峰的同义差异进行了比较。我们将直系同源物识别为互惠的最佳爆炸效果。使用蛋白质引导的DNA比对,我们使用PAML与F3X4 Model94估算了每对直系同源物的成对同义差异 。如果WGD副母亲的同义词中位数的同义词比中位数的同义词的同义词差异,则WGD被解释为谱系差异后发生的。同样 ,如果WGD旁系同义词的同义差异比直系同义词的同义差异更古老 ,那么我们将这些WGD解释为共享。   为了推断和定位数据集中的假定WGD,我们使用了基因树排序和计数算法,即多键taxon paleopolyploidy搜索(MAP)工具18 。对于每个地图分析 ,我们选择了至少两个可能在其祖先中共享WGD的物种,以及可能从系统发育范围内支撑WGD的谱系中的代表性物种 。地图使用此给定的物种树来过滤核基因树的集合,以与物种树中每个节点的关系一致。使用此过滤的子树集 ,地图识别和记录节点,并具有后代分类群共享的基因重复。为了推断和定位潜在的WGD,我们比较了每个节点观察到的重复数量与背景基因出生和死亡率的无效模拟97,98 。与无效模拟相比 ,在R90中实施的Fisher的精确测试用于鉴定基因重复大幅增加的位置(补充表5)。然后,将其重复的位置明显高于预期的位置与该位置的模拟WGD进行了比较。如果使用Fisher的精确测试与该模拟的WGD相一致,则如果与KS图和直系同源差异数据的推论一致 ,我们将位置确定为WGD 。在某些情况下,地图推断出重要的重复,而在KS图或先前发表的研究中没有明显的特征。在这些情况下 ,我们认为这一事件是大量的基因重复。   每个地图分析均设计为将焦点WGD放置在物种树的中心附近 ,以最大程度地减少WGD推断中的误差 。转录组或基因组组装,基因家庭聚类以及基因家庭系统发育的构建的错误可能会导致基因树的拓扑错误99。先前的研究表明,基因树的错误可能导致重复属材料向树根的偏差放置 ,并倾向树的尖端。因此,我们旨在将焦点节点放在系统发育中间的特定地图分析测试中 。为了进一步减少基因重复推断的潜在误差,我们要求至少45%的间群分类单元出现在MAPS97分析的所有子树中。如果未满足群体类群数的最低要求 ,则将滤除基因子树并将其排除在我们的分析之外。分类单元的占用率的增加会导致更准确的重复推断,并减少将重复映射到物种树100,101中的一些偏见 。为了维持每个地图分析的足够的基因树数,我们使用了六到八个分类单元的基因家庭系统发育量来推断古老的WGD 。   对于每个地图分析 ,将转录组转化为氨基酸序列,使用thepipe Pipeline17。使用这些翻译,我们使用E = 1×10-5的临界值在数据集中进行了互惠蛋白BLAST(BLASTP)搜索。我们在默认参数下使用Orthofinder从这些爆炸结果中聚集了基因家族 。102。使用自定义Perl脚本(https://bitbucket.org/barkerlab/maps) ,我们过滤了基因家族,这些基因家族在给定的地图分析中包含每个分类单元中至少一个基因副本,并丢弃了其余的正晶群集。我们使用Pasta73进行基因家族的自动对齐和系统发育重建 。对于每个基因家庭系统发育 ,我们运行意大利面 ,直到我们达到三个迭代,而没有使用质心断裂策略提高似然评分。在意大利面的每次迭代中,我们使用mafft103构建了子集对齐 ,使用Muscle104将这些子集比对合并,并使用RAXML76进行树估计。每个软件包的参数是面食的默认选项(https://bitbucket.org/barkerlab/1kp) 。我们为每个多物种核基因家族使用得分最佳的面食树来集体估计给定物种每个分支的共享基因重复的数量。   为了产生无效模拟,我们首先估计了使用WGDGC98(补充表5 ,11)的平均背景基因复制率(λ)和基因损失率(μ)。基因计数数据是从与每种物种树相关的Orthofinder102簇中获得的(补充表5) 。仅使用跨越其各自物种树的根的基因簇估算λ和μ,该基因簇已被证明可以减少λ和μ的最大可能性估计98中的偏差。我们选择了最大基因家庭大小为100进行参数估计,这对于为节点状态的数值整合提供了上限。我们在每个物种树的根部基因的数量上提供了先前的概率分布 ,因此祖先基因家庭大小遵循移动的几何分布,平均值等于整个物种基因家族的平均基因数量(补充表5) 。   然后,使用Genphylodata105中的guestreegen程序在每个地图树木中模拟基因树 。对于每个物种树 ,我们模拟了3,000棵基因树,每个物种至少有一个尖端:λ和最大样本估计的1,000个基因树,估计为λ和μ的一半的1,000个基因树 ,以λ和μ为三倍。对于所有模拟 ,我们应用了相同的经验先验,用于估计λ和μ。然后,我们随机重新采样了1,000棵树 ,而没有从总基因树总池100次替换,以衡量每个节点处的子树百分比的不确定性 。对于WGD的积极模拟,我们使用用于生成无效分布的方法模拟基因树(补充表5) ,但在测试分支上合并了WGD。在植物WGD后保留的副产品的先前经验估计平均为10%。为了在我们的地图分析中推断WGD保守,我们允许在模拟WGD之后保留至少20%的基因,以解释偏见的基因保留和损失 。对于可能具有较低基因保留率的WGD ,我们使用15%基因保留率使用了额外的模拟(补充表6)。   为了从转录组数据中稳健地估算基因家庭大小,我们需要克服三个主要挑战:(1)转录序列的碎片;(2)缺乏低丰度转录本;(3)由于组装重复和生物同工型,基因家族大小的过度预测。我们应对这些挑战如下 。   用于构建域特异性剖面隐藏马尔可夫模型(HMM)的多个序列比对的长度为23至463个氨基酸。这些比对中有78%的比对比120个氨基酸短 ,而组装和翻译的转录本的84.6%的时间大于120个氨基酸。通过主要使用单个域来表征基因家族(补充表9),我们限制了从短读数据组装中转录本的碎片的影响 。补充表9中给出了用于基因家庭分类和从已发表的工作107或基因家族专家获得的决策规则的HMM;23个基因家族中有12个是由单个“应该”规则分类的,其中23个基因家族是由XOR“应该”规则定义的 ,这也通过单个领域的存在对序列进行了分类 ,在23个基因家族中,有8个由更复杂的规则集进行了分类,其中包括“不应应该不应该 ”规则。唯一需要存在多个领域的基因家族是PPR基因家族的PLS子属。   为了解决基因空间采样的可能偏差 ,所有显示出低水平的转录组完整性的物种均已去除 。从30个注释的植物基因组获得的转录组完整性值的最低值用作较低的排除限 。我们删除了所有样本,其中使用默认设置和真核生物数据集作为查询数据库中丢失了超过42.5%的BUSCO31序列。   我们通过序列相似性和合并序列聚集了组装的蛋白序列,这些序列至少显示了99%的身份。为了检查应分别计数的合并序列的可能性 ,比较了1KP数据集和32个注释的植物基因组之间的不同身份截止 。   扩展数据图3C,D显示了从1KP样品和32个注释的植物基因组获得的23个基因家族和13个基因家族的平均基因家庭大小。这些基因家庭大小显示出1KP样品和植物基因组之间的较高的Pearson相关性(r = 0.95),因此表明两种方法之间的线性关系。1KP数据集的结果平均较小2.3倍 。尽管这是一个明显的低估 ,但估计值太小的比例因素相对一致,尤其是随着基因家庭尺寸的增加。   我们使用CDHIT v.4.5.7108,109来减少数据集中蛋白质序列重复的数量。我们评估了100%,99.5% ,99%,95%和90%的序列身份阈值 。1KP样品和32个参考基因组的剩余序列的百分比显示在扩展数据中。我们选择了99%的序列身份作为本研究使用的值。   基因家族专家提供了将蛋白质序列分类为具有特征HMM的基因家族的成员的知识 。总共使用代表23个大基因家族的46个HMM用于估计被分析物种中的基因家庭大小。先前发表的14个基因家族的分类规则和HMMS 107已转换为HMMER3格式,并在本研究中使用。在补充表8中可以找到其余9个家庭的基因家庭分类规则和HMM 。从PFAM数据库中获取HMM(2016年5月12日访问)或由Gene-family-fomenty专家提供(补充表8) 。HMMER110(v.3.1b2)用于扫描过滤后的1KP数据集中的匹配项。在可用的地方 ,使用了聚集阈值;否则 ,将E-Value截止值用于指示域的存在。如果在补充表9中未注明E值,则应用10的默认E值 。物种水平的结果列在补充表10s中。   为了评估基因家族是在谱系中扩展还是收缩的,我们比较了相邻进化枝和成绩中基因数的加权平均值(图4)。我们还检查了进化枝内的扩张和收缩 ,但没有发现任何统计学上的明显变化 。将来自两个进化枝或等级的基因家庭成员的计数与R90中的P值阈值为1×10-6的Kolmogorov – Smirnov检验。在补充表7中列出了本研究中进行的测试。使用修剪算术平均值计算倍数变化,其中丢弃了顶部和底部5%的数据 。仅报告仅报告大于1.5倍(或小于2/3)的扩张。   有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zlan/202506-1905.html

(11)

文章推荐

  • 蝉古诗的緌的读音 緌在《蝉》中的读音

    蝉古诗的緌的读音虞世南《蝉》诗中的“緌”的读音是ruí。原文:垂緌饮清露,流响出疏桐。居高声自远,非是藉秋风。白话译文:萧疏梧桐之上,蝉儿低饮清露,蝉声清脆响亮,回荡树林之间。身居高枝之上,可以傲视群虫,不用借助秋风,传声依然遥远。首句表面上是写蝉的形状与食性,实际上处处含比兴象征。“垂緌”暗示显

    2025年04月09日
    74304
  • 2013夏季最火的歌曲 最新流行歌曲排行榜2013

    2013夏季最火的歌曲陈奕迅的《好久不见》《不要说话》《孤独患者》《红玫瑰》这四首绝对经典。萧亚轩的《类似爱情》张敬轩的《断点》金志文的《空城》张杰的《天空》范玮琪的《最初的梦想》王力宏《依然爱你》陈楚生《经过》林俊杰《不存在的情人》LanaDelRey的《VideoGames》下面是

    2025年04月13日
    39312
  • 浮游植物多采样器及其在维多利亚湖的使用

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月17日
    8322
  • 类黄酮的生物发生在衣原体中

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月18日
    11309
  • 金属烷氧化物聚合物的结构理论

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月18日
    14312
  • 湖泊的档案

      我们刚刚意识到,自从GreatIceSheets开始释放其对非洲大陆的持有以来,整个时期内都存在着一系列出色的欧洲历史记录。这些记录被埋葬在我们湖盆地的矿床中。迄今为止,我们一直无法阅读这些档案。但是,花粉分析的方法为我们提供了广泛解释的线索,森林历史,气候变化和人类活动的故事越来越清晰。我

    2025年06月18日
    10314
  • 网格蛋白是基底外侧极性的关键调节剂

      涂有网格蛋白的囊泡是从酵母到人的所有成核细胞中细胞内运输的车辆。许多研究表明,它们在质膜的内吞作用和细胞信号传导过程中的重要作用。相比之下,他们的非细胞运输作用很少,它的特征是水解酶从高尔基体络合物传输到溶酶体。在这里,我们表明上皮细胞系MDCK中基底外侧质膜蛋白的极性是必需的。网状蛋白敲低通过

    2025年06月19日
    10322
  • 皇家学会:周年地址

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月20日
    8309
  • Harvey和Kirsten肉瘤病毒的P21 SRC基因起源于正常脊椎动物基因家族的不同成员

      鼠类肉瘤病毒的Harvey和Kirsten菌株在酶促和血清学相关的P21SRC蛋白上编码,这是病毒介导的细胞转化所必需的。编码p21的每个病毒中的基因彼此之间存在如此广泛的差异,从而克隆了这些基因的探针检测到来自几种脊椎动物物种的DNA中不同的细胞基因集。这些数据表明,细胞p21SARC基因

    2025年06月21日
    9306
  • 纸上肽的电泳迁移及其在酰胺基团的测定中的使用

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月21日
    11314
  • 身似菩提技能/梦幻身似菩提对npc有效吗

    特技身似菩提对怪反弹伤害吗反弹。特技身似菩提的技能效果是反弹一切法术,能够反弹法术伤害,能反弹法术封印。《梦幻西游》是一款由中国网易公司自行开发并营运的网络国产游戏。2016年2月29日正式定名为《梦幻西游》。梦幻西游身似菩提可不可以返还横扫千军伤害不能。身似菩提只能返还法术伤害身似菩提貌似抗法不

    2025年06月24日
    7306
  • 2017最新款/2017最新款霸道

    请问苹果手机最新型号是哪款1、综上所述,苹果手机的最新版本是iPhone15系列,包括iPhone1iPhone15Pro和iPhone15ProMax等多个型号,它们各自具有独特的特点和配置,以满足不同消费者的需求。2、iPhone15系列是苹果最新的手机型号。截至2024年3

    2025年06月24日
    3309

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2025年06月21日

    我是永利号的签约作者“admin”

  • admin
    admin 2025年06月21日

    本文概览:  没有使用统计方法来预先确定样本量。尽管基因组重复分析中包括的模拟确实包括从随机分布中绘制的模拟,但实验并非随机。在实验和结果评估中,研究人员并未对分配视而不见。   ...

  • admin
    用户062104 2025年06月21日

    文章不错《一千个植物转录组和绿色植物的系统基因组学》内容很有帮助