本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/jyfx/202506-2197.html
从最初的45个HCT接受者和HLA匹配的兄弟姐妹捐赠者中选择了十对捐助者对 ,这些捐赠者被录入了原始研究3。所有捐助者和接收者都给予了书面知情同意,而原始研究和随后的修正案均由当地伦理委员会批准(Kek-Zh,2015-0053和2019-02290; Kantonale Ethikkmmession-Zurich-Zurich-Zurich-Zurich) 。选择患者进行分析的优先级是随访材料的潜在可用性 ,因为一些患者继续发展出血液学恶性肿瘤,发现自初次研究以来,供体嵌合失去了供体嵌合或随访。除此之外 ,我们旨在包括各种同级兄弟对年龄,干细胞来源和条件类型。在原始研究中,我们还了解了在接受者和/或捐助者中检测到的一些芯片克隆的意识 ,因此还希望将场景混合在一起 。
根据制造商的说明,使用EasySEP直接中性粒细胞分离试剂盒(干细胞技术)从10 mL EDTA抗凝外围血液中分离粒细胞。根据制造商的建议,使用人CD34 Microbead试剂盒(Miltenyi Biotec)从20 mL EDTA抗凝外围血液中分离CD34+ HSPC。使用FACSARIA III流式细胞仪(BD Biosciences)将B细胞,T细胞和单核细胞从CD34-细胞级分流 。使用的抗体为PE/CYANINE7抗人CD14(Biolegend ,301814),APC抗人CD3(Biolegend,317318)和FITC抗人CD19(Biolegend ,363008),根据制造商的效果,并根据制造商的效果 ,并根据抗体制造商表演,并根据制造商的说明进行稀释并使用。
如前所述41,将CD34+ HSPC铺在9 mL细胞因子补充的甲基纤维素培养基(干细胞技术)中。在37°C培养14天后 ,挑选了5%二氧化碳单位菌落单元,并重悬于20 µL Quickextract DNA提取溶液(Lucigen)中 。
根据制造商的建议,使用QIAAMP DNA迷你试剂盒分离粒细胞 ,单核细胞,B细胞和T细胞的DNA。
如前所述,使用PCR扩增的12个循环42,每个菌落中1-6 ng的DNA的靶标进行了低输入文库制备。使用Illumina Novaseq 6000平台生成配对的测序读数(150 bp) ,每个菌落的覆盖率约为8-15倍(补充图1A)。BWA-MEM用于将序列与人类参考基因组(NCBI Build37)对齐 。
最初使用内部管道穴居人(CGPCAVEMAN)和Pindel(CGPPINDEL)43,44使用SNV和Indels针对合成无与伦比的参考基因组来调用。对于所有通过一个样本中的质量过滤器的突变,内部软件(CGPVAF; https://github.com/cancerit/vafcorrect)用于在所有供体 - 差异对中的所有HSPC菌落的变体和正常读取的矩阵。
然后,应用多个事后过滤步骤 ,以去除种系突变,复发库制备和测序伪影,并可能在体外突变 ,如下所述:
使用ASCAT-NGS(ASCATNGS)45和带有Gridsssss46的SV调用拷贝数变化 。使用vagrent47注释蛋白质编码后果,这些后果用于使用DNDSCV40推断阳性选择的存在。
在过滤的突变集中对每个体细胞突变进行了基因分型。对于每个突变,具有VAF> 0.15和至少2个变体读数的样品被认为是阳性的 。没有变体读取和深度至少6个的样品被认为是阴性的。不符合这两个标准的样本被认为是无信息的。
使用最大简约算法MPBOBOT48推断系统发育 。这种有效的算法已被证明对使用克隆样品WG构建的可靠基因型有效 ,并且在此处执行,并且与其他基于其他最大易变的算法相媲美。为了测试这一点,我们对所有树木进行了系统发育推断 ,并具有最大emelihood算法IQTREE(http://www.iqtree.org/),并将所得的系统发育与MPBoot的系统发育进行了比较。这些在所有情况下都显示出极其相似的结构,如高鲁滨逊 - 五个(范围为0.955-0.933)和四重奏相似性得分(范围为0.903–1.000)所示 。在几乎所有情况下,差异都是在早期发育分裂的方向上 ,与下游分析无关(补充图6)。
已经开发了许多不同的算法来基于DNA序列重建系统发育树。这些基于字符的算法依赖于不同的方法:最大简约,最大似然或贝叶斯推理49。基于简约的最大算法试图产生一种系统发育,需要在树上进行最少的离散变化 。随着核苷酸变化的数量最小化 ,该方法隐含地假设突变可能仅发生一次。因此,当复发或逆转突变的可能性很高时,最大的简约可能会产生错误的系统发育 ,例如长度差异时间或高突变率,这通常不适用于正常体细胞中的突变。依靠最大似然或贝叶斯推论的系统发育算法是基于模型的,因为它们需要对遗传序列演化的参数的特定概念来计算距离或可能性 。通常 ,这涉及序列Evolution50的一般时间可逆模型。所有这些方法已广泛应用于物种或个体之间的系统发育树的重建49。但是,构建源自单个个体的体细胞系统发育的任务与以三种方式重建物种树的根本不同:
因此,在经验指标和理论基础上 ,最大简约方法的性能与基于模型的重建体细胞系统发育的方法一样准确,并且需要更少的其他假设 。
嵌入甲基纤维素内的造血菌落可能会彼此生长,或者来自一个以上的创始人细胞,导致并非单细胞得出的菌落。这样的样品可能会干扰系统发育型 ,并具有较低的称为突变,因此被排除在外。检测分为两个步骤 。首先是基于以下原则:来自克隆样品的体细胞突变应具有0.5左右的峰值VAF密度。因此,在使用精确的二项式和β二项式滤波步骤排除种系突变和复发伪影后 ,评估了样品中阳性突变的VAF分布。最大VAF分布密度的样品 <0.4 (corresponding to a sample purity of <80%) were excluded. The second step was performed following a first iteration of phylogeny building using samples passing the first step. Each sample was tested against the phylogeny to see if the mutation VAFs across the tree were as expected for a clonal sample. A clonal sample should have either branches that are positive (mutation VAFs, ~0.5) or negative (mutation VAFs, ~0). Thus, for each branch in each sample, the variant and total read counts were combined across all branch mutations. These counts were then tested for how likely they were to come from either (1) at least that expected for a heterozygous somatic mutation distribution, with some contamination allowed (one-sided exact binomial test, alternative hypothesis = less than probability, probability = 0.425) or (2) no more than that expected for absent mutations, with some false positives allowed (one-sided exact binomial test, alternative hypothesis = greater than probability, probability = 0.05). If the samples had any branches with read counts that were highly inconsistent with both tests (maximum q-value < 0.05, Bonferroni correction) or had three or more branches that were minorly inconsistent with both tests (maximum P value of 0.05, no multiple-hypothesis testing correction) the sample was considered to be non-clonal and excluded. A second iteration of phylogeny inference was then performed without the non-clonal samples. These steps have a degree of tolerance of minimally contaminated samples, and samples with >80–85% purity will generally be retained. However, even this lower level of contamination will have an impact on the sensitivity of mutation calling and sample purity was therefore taken into account for mutation burden correction.
Initial phylogeny building was done using all samples with a maximum VAF distribution density of >0.4 。在三种情况下(Pairs 3 、4和9),这种初始系统发育显示出一个异常值进化枝,其明显高的突变负担> 30,000。离群进化枝仅包含从接受者样本中种植的菌落 ,这增加了这些可能代表受体造血的可能性。对于成对3,实际上,离群进化枝内的样品被确定为源自对10 ,因此代表了个体污染。这很明显,因为该进化枝中80%的突变是成对10的种系突变,还包括DNMT3A P.R899G和TET2 P.A996FS*11突变 。对于4和9 ,事实并非如此。离群进化枝中没有已知的致病变异。可行的是,样品可能源自残留的受体衍生的造血,或者来自研究中另一个人的污染 。由于捐助者是兄弟姐妹,接收者将共享捐赠者的种系变体的一半。因此 ,如果离群进化枝来自剩余的受体嵌合体,则离群进化枝的分支长度应为捐赠者中〜30,000个种系突变的一半,即15,000个突变。但是 ,在所有情况下,离群进化枝都包含约30,000个突变,这与无关的个体而不是残留受体造成的污染一致 。在离群进化枝内有> 1个样品的两个个体中 ,它们来自96孔板的相邻井中,摘录了菌落,因此实际上可能是从同一原始创始人细胞中得出的单独样品 ,大概是从同一原始创建者中衍生而成的,这些样品大概越来越多,这些样品逐渐成长为多次挑选的大型分支菌落结构。突变滤波和系统发育构建是重新运行 ,不包括污染样品。
一些在甲基纤维素中生长的造血菌落具有不规则的分支外观,并被误解为多个单独的菌落,导致几个样品无意间从同一菌落中挑选出来 。这些样品在系统发育树上似乎高度相关,只有几个私人突变 ,主要代表体外获得的突变。(1)在许多情况下,将重复项挑选成相邻/附近的井,这是因为(1)在孔周围系统地进行殖民地进行的 ,以下事实证明了这些重复项的认识。(2)在大多数生物学情景中,由于短期HSC/HSPC池较大,这种高度相关的样品对极为罕见 。因此 ,假定少于30个私有突变的样品对96孔板上的近距离位置被认为是同一菌落的重复物,并去除了一个样品。
使用ASCAT45,46从WGS数据中调用CNA。手动检查原始拷贝数图以排除异常后,将同一对的良好匹配样本用作“正常参考”。手动审查了拷贝数轮廓 ,并将其与背景噪声明显区分的变化列为列表 。
使用默认设置的Gridss46(v.2.9.4)调用SVS。包括大于1 kb的SV,包括质量≥250。对于小于30 KB的SV,仅包括具有质量≥300的SV 。此外 ,只有在至少四个不和谐和两个分裂读数的支持下,才考虑从断点两侧组装的SV。具有不精确破裂的SV(即开始> 10 bp的起始位置和末端位置之间的距离)被过滤掉了。我们进一步过滤了S.D.的SVS 。在不一致的读取对的两端的对齐位置的位置小于五。如果在其他样品中发现了通过相同的SV,则救出过滤后的SV。为了删除潜在的种系SV和人工制品,我们通过在正常的网格面板中添加内部正常样品(n = 350)来生成正常面板 。去除了在正常面板中至少三个不同样品中发现的SV。通过视觉检查和检查它们是否适合基于SNV衍生的系统发育树的预期分布来确认变体。
使用r pagge HDP(https://github.com/nicolaroberts/hdp)中实现的层次dirichlet Process51从头提取突变签名 。这些反映了在HSPC菌落中活跃的基本突变过程的特征。系统发育上的每个分支都被视为独立样本 ,并计算了每个三核苷酸环境下突变计数。分支 <50 mutations were excluded as, below this threshold, random sampling noise in the mutation proportions becomes problematic.
Plots of signature contributions in each sample in Extended Data Fig. 3 represent the means of signature contributions of individual branches included within the sample (weighted by the branch length), with final values then scaled by the sample total mutation burden to reflect absolute signature contributions. Note that branches with <50 mutations—primarily early embryonic branches—are not included in this estimate as they are excluded from the signature extraction step. This means that processes primarily operative in embryogenesis are under-represented in these estimates.
The number of somatic mutations called in any given sample depends not only on the number of mutations present, but also on the sequencing coverage and on the colony purity. For each individual, reference sets of germline polymorphisms (separate sets for SNVs and indels) were defined (n > 30,000 SNVs in all cases). These were mutations that had been called in many samples (as mutation calling was performed against an unmatched synthetic normal), and for which aggregated variant/reference mutation counts across samples from an individual were consistent with being present in the germline. For each sample, the proportion of germline SNVs called by CaVEMan and passing the low-input filter was considered the ‘germline SNV sensitivity’, and the proportion of germline indels called by Pindel was the ‘germline indel sensitivity’. For pure clonal samples, the sensitivity for germline variants should be the same as for somatic variants. Therefore, for samples with a peak VAF >0.48(对应于96%的纯度),这种种系敏感性也被认为是“躯体变体灵敏度 ”,并用于纠正体细胞变体的数量。但是 ,对于较少的纯样品(纯度,80-96%),对体细胞变体的敏感性将低于生殖线变体 ,因为样品的所有细胞中都不会存在前者 。因此,应用了另一个“克隆性校正”步骤。在非共隆样品中杂合子体细胞突变测序的预期变体读取数将为NV〜二项式(N,P) ,其中N是突变位置处的测序覆盖范围,P是样品峰VAF(而不是P = 0.5,如纯条样品而言是p = 0.5)。给定NV变体读取和n个总读数的突变的可能性取自参考灵敏度矩阵 。该基质是根据20个样品中的种系多态性敏感性数据定义的 ,其中所有样本最终突变集中所述突变的比例被评估。假定的体细胞突变之间的测序覆盖范围分布与整个种系多态性集相同。因此,对于n的每个值(该样品中所有种系多态性的深度),如上所述,将模拟数量的变体读数为NV作为随机二项式抽取 ,以及这是否导致成功的突变调用是基于敏感性矩阵中定义的概率的随机抽奖 。成功称为模拟的体细胞突变的总比例定义为该样品的“体差异敏感性”。
然后使用体细胞变异敏感性来纠正以下管理器中系统发育的分支长度。对于私人分支,根据分支长度的SNV组件根据
其中NCSNV是样品I中校正的SNV数量,NSNV是样品I和PI中调用的未校正数的SNV ,是样品I中的体细胞变体灵敏度 。
对于共享分支,假定(1)低灵敏度的区域在样品之间是独立的,(2)如果在进化枝中的至少一个样品中调用了躯体突变 ,则将为进化枝中的其他样品“营救 ”并正确放置。因此,共享分支是根据
在进化枝中为每个样品i的1- pi采用产品的位置。这两个假设都是完全正确的 。首先,覆盖范围较低的区域是非随机的 ,一些基因组区域的覆盖率可能低于多个样品的平均覆盖率。其次,尽管在第一个样本中调用它们后,确实将在随后的样本中挽救许多突变 ,但由于Treemut算法的突变分配算法又回到了原始读取计数中,因此,即使在随后的样本中的单个变体读取也可能导致突变将突变分配给共享的分支,以至于该分支机构并不总是案例。有时 ,在给定站点的深度非常低的样品会偶然使用0个变体读取。在这种情况下,突变可能错误地放置 。这两个因素都可能导致共享分支的校正不足,但这是一个合理的近似值。然后 ,通过这种方法纠正的SNV负担被作为每个样品的校正祖先分支长度的总和,回到根部。
根据制造商的说明(SureSelectxt自定义DNA目标富集探针,Agilent)设计了三个独立的自定义面板 ,该面板是(1)对(1)对2、9和(2)对2、3和3和8和(3)对1 、4和5 。尽管有特定的误差,但针对这些测序误差的组设计了定制的误差率,但针对个人的定制率设计了 ,但该定制面板的设计是构成的。每个面板的面板设计也类似地进行。如果系统发育的共享分支上的所有SNV遇到了在Suredesign平台内施加的中等严格重复掩蔽(约占基因座的60%),则涵盖了它们 。对于中等严格重复掩蔽后没有覆盖的突变基因座的短共享分支,接受低严格重复掩蔽后的基因座。根据更严格的标准选择了从私人分支的每次移植对总共10,000个SNV ,以最大程度地提高捕获效率。仅当(1)与用于突变呼叫的突变相比,他们才被考虑(1)遇到更严格的突变滤波阈值(常染色体突变的VAF> 0.35,或者对于男性的XY突变; beta-binorial rho值> 0.3);(2)在最严格的重复掩蔽后包括突变基因座;(3)需要最小的捕获诱饵来补偿高DNA GC含量 。此后,根据测序错误率对突变进行排名 ,并且首先选择错误率最低的突变。错误率是从用于剪切水突变算法算法的特定地点错误率信息中获取的。通常,覆盖了5-10%的私人SNV 。只有在驾驶员编码序列中才包括indels。此外,全WGS研究的十个推定的驱动基因涵盖了全部涵盖克隆造血的研究(DNMT3A ,TET2,ASXL1,PPM1D ,ATM,MTA2,ZNF318 ,PRKCG,PRKCG,SRSF2和KPNA7)。
来自每个体积分类细胞类型(粒细胞 ,单核细胞,B细胞和T细胞)的四个单独的等分试样的DNA与每个个体进行了低输入文库的制备,并使用PCR扩增的九个循环进行了低输入文库制备。生成配对端的测序读数(100 bp),将其杂交与适当的自定义诱饵捕获面板 ,在流动池上多重,然后使用Novaseq 6000平台进行测序 。在某些情况下,DNA不足以允许四个等分试样50 ng。在这种情况下 ,使用输入DNA降低至25 ng和/或更少的等分试样。如果可用<20 ng的总DNA,则在库制备过程中使用12个循环的5 ng的等分试样 。
与血液学恶性肿瘤和/或克隆造血相关的驱动基因的庞大列表是由(1)一个54基因的Illumina Myeloid面板(Trusight Myeloid测序面板)编译的;https://www.illumina.com/products/by-type/clinical-research-products/trousight-myeloid.html);(2)用于化学疗法相关的克隆造血的研究中使用的92基因列表29,54;(3)最近在英国生物库全异位血液测序数据中鉴定为正选择的基因列表(补充表1)。然后,我们在这些基因中寻找错义 ,截断或剪接变体,产生174种此类变体(补充表2)。然后将它们手动策划为70种被认为具有潜在致病性的变体,其余的变体被归类为未知重要性的变体 。这是使用宇宙突变的宇宙数据库(https://cancer.sanger.ac.uk/cosmic) ,更广泛的文献,在某些情况下,在某些情况下会进行变体效应预测工具 ,例如sift和polyphen。
数据包括从给定样品中对已知体细胞突变的深度靶向测序。对照样品(通常来自其他患者,不存在突变的患者),还测序可以估算每个突变位置的测序错误率 。体细胞突变之间的克隆关系是由系统发育树引起的 - 假定该系统发育树是已知的(因此被认为是固定在随后的算法中)。
我们希望估计诱饵集中每个突变的真实VAF的后验分布。系统发育树的结构对克隆相关突变的VAF的溶液空间提供了相当大的限制 - 例如,后代分支上的突变不能比直接祖先分支的突变具有更高的VAF 。此外 ,对于树上的一个给定节点,包括祖先分支和两个或多个后代分支,在后代分支上突变的最大VAF的总和必须小于祖先分支上最小突变的最小VAF。
阻塞的吉布斯采样器渗透到每个突变的后验VAF ,受系统发育树施加的约束。从本质上讲,我们使用数据增强为树中每个分支分配了最大和最小VAF(下面的符号中的λj和κJ) - 该分支上每个突变的VAF必须落在该范围内。
令样品中突变i的ρi_ρip,感兴趣的变量;对照样品中突变I的εi误率;对照样品中突变i的πi误率;yi是样本中变异特异性读取突变I的数量;ni样品中突变I的总覆盖范围(读取深度);从系统发育树(t)t的BJ r分支J ,包括分配给其的一组突变;样品中的最大允许VAF用于BJ上的突变;样品中的最小允许VAF用于BJ上的突变 。
通过分支进行程序,给定分支上的每个突变的VAF必须属于[κJ,λj]范围内。我们假设先验是ρiu(κJ ,λj)。
读取报告变体等位基因的读数可以是由正确报告突变体DNA分子的读取或从野生型DNA分子读取的读取误差的读数 。这意味着报告变体等位基因的读取的预期比例被计算为
我们假设给定VAF(即Yi bin(πi,ni))的变体读数计数的二项式分布。
我们使用Metropolis-Hastings方法来更新ρi的估计值。从截短的beta分布中汲取了一个新的,提议的迭代k
其中σ是一个用户定义的比例因子 ,以优化大都市 - 享乐式更新的接受率 。然后,从二项式的分布函数中计算出二项式的分布函数,并以通常的方式对VAF的拟议值计算,然后接受或拒绝新值。
为了更新每个分支的最大和最小VAF ,我们在树上通过节点进行节点(其中一个节点代表树中的凝聚力,包括一个入站,祖先分支和两个或两个或更多出站 ,后代分支)。如上所述,出站分支上突变的最大VAF总和必须小于入站分支上的最小VAF 。这意味着有大量的“未分配的VAF”代表这些值之间的差异:
我们使用统一分布的抽奖将这种未分配的VAF分配在入站和出站分支中。本质上,如果有n个分支进入或留下当前节点 ,我们将n值从u(0,vafunallocated)中绘制,对它们进行排序并进行相邻差异:u(1)-0 ,u(u(2) - u(1),,vafunallallallocated -u(n)。然后将这些分配给分支:
我们将全部读取深度NI增加了一倍 ,以使男性性别染色体突变 。我们使用了σ= 50的比例参数。将根节点分配为0.5的固定VAF和端子节点的固定VAF为10-10。Gibbs采样器进行了20,000次迭代,将10,000次丢弃,燃烧,每100次迭代。
Gibbs采样器的输出是自定义杂交面板覆盖的每个突变的VAF的后部分布 。这被转换为发育后克隆的克隆分数。首先 ,将突变VAF乘以两个以得到克隆分数(假设杂合性)。然后在100个突变的分子时间的高度上切开树,以定义何时认为克隆起源 。尽管这有点经验,但发育后不久(结束约50-60个突变)的任何分子时间点都将产生相似的结果。对于每个横穿定义的克隆截止点的分支 ,计算沿分支的截止位置的位置,例如,如果分支从50个突变的高度变为150个突变 ,则分子时间为100个突变的分子时间将沿着分支中途。根据该分支所涵盖的突变数量,该分支沿线最好反映分子时间截止的位置,例如 ,在上述分支中,如果分支的100个突变中有60个包括在定制小组中,则在30个级别的后克隆分数中(通过在100 cuntional sorrec solrec sorrection clations contimentim ottimentim ottimentim clorementim norimentim a发起) ,以下是一个clonementim n clorementim n clorentim a起 。在显示点估计值的情况下,使用中值后值。
从单个系统发育树结构中评估了克隆多样性(1),(2)来自成熟细胞类型的靶向测序结果中的克隆分数。
我们首先通过使用cophenetic.phylo函数从r包装ape获得的距离矩阵的平均值来计算平均成对距离55 。这是系统发育中所有样本对的平均系统发育距离(即样品之间最短路径之间的分支长度之和)。接下来,我们计算了平均最接近的分类单元距离55 ,再次从cophentic.phylo函数的距离矩阵开始,但是这次从每一行中获取最小的非零值,并计算这些值的平均值。这代表了所有样品的系统发育距离的平均值 。对于这两种措施 ,都使用了系统发育的超级版本。
SDI(H)定义为:
其中k是人口中的组总数,而PI是I组的规模,是总人口的一部分。就我们的目的而言 ,K是从系统发育中确定的发育后克隆的总数(再次将克隆定义为以100个分子时间突变为100个突变),而PI是克隆的分数(如上所述),从靶向测序结果(如上所述)确定为该个体/细胞类型中的总捕获的克隆分数。例如 ,如果克隆I的克隆分数为0.1,并且所有克隆的分数总和为0.5,则PI = 0.2 。
对于每个感兴趣的突变 ,将受体中真实突变VAF的100个后验值估计除以供体中VAF的100个估计值,给出了比率的后验分布。计算了该分布的中间间隔和95%的后间隔。
使用ABC方法论进行了植入细胞数的推断和移植特异性选择的演示,该方法在下一部分中描述 。在ABC中,在拟议的模型下生成的大量模拟数据集取代了该模型的可能性函数的计算。这样的模拟将永远不会完美地模仿现实生活中的情况 ,但是在所使用的模型的约束中,它们可以有助于获得生物学参数。为此,我们在内部开发的R软件包“ rsimpop” v.2.2.4(www.github.com/nickwilliamsssanger/rsimpop)中实现了几种同种异体移植的模拟模型 。该软件包允许同时模拟多细胞室 ,每个细胞室具有自己的目标人群大小,同时记录人口系统发育。它还允许具有不同适应性的子部门,反映了驾驶员突变的后果。人口增长是通过出生 - 死亡过程发生的 。人口增长没有细胞死亡 ,直到人口达到目标大小为止,这时人口以平衡的细胞出生/死亡维持。
我们模拟的起点是正常衰老模型的参数的后验分布。在我们对正常年龄的研究中,ABC方法首先应用于造血干细胞动力学的中性模型 ,该模型适用于年轻人 。使用这种方法,可以从参数NT的联合后验分布(其中N是HSC人群大小,t是对称HSC细胞分裂之间的时间) ,从而产生大量的参数值(n = 2,000)。在我们对衰老造血症的研究中,我们进一步发现,随着年龄的增长,可以通过不断获取驱动器突变 ,而驱动器突变的变化可以通过持续的选择系数来解释,并且通过LIFE引入了HSC人群,可以通过Life19进行选择系数。
ABC方法用于从该模型参数的联合后验分布中生成大型样本(n = 2,000)(指定驱动器突变的引入速率 ,以及这些突变的选择系数的分布)。在此处报道的移植系统发育中的ABC分析中,我们将此后验分布(由参数值的样品表示)作为这些相同参数的先验分布(扩展数据图9) 。我们还返回中性模型,并将其应用于该研究中两个最年轻的捐助者(29岁和38岁)的系统发育数据 ,以从参数NT的后验分布中产生大样本。在移植系统发育的ABC分析中,该后验分布用作参数NT的先前分布。
仿真始于单个单元格 - HCT供体的合子 。人口增长是通过出生过程发生的,直到达到目标人群的大小(HSC池的大小)。由于先前的估计值是NHSC×t的值 ,因此我们保留所有模拟的固定值(HSC对称分区= 1年之间的时间),然后从先前的研究中的后验估计中选择N作为随机绘制。到达后,目标人群大小NHSC通过将细胞分裂速率与细胞死亡/分化相匹配来维持 。通过分配细胞的选择系数shomeostatis(从伽马分布中随机绘制 ,以形状和速率参数本身作为从参考文献19)随机绘制的选择系数shomeostatis,以固定的速率添加驾驶员突变(从参考文献19中随机绘制后者的随机绘制),然后传递给所有未来的细胞progeny。这种shomeostatis导致驱动器克隆的细胞比其他细胞更有可能进行对称细胞分裂。
供体造血老化的模拟一直持续到供体捐赠者的年龄,Donor_ageHCT 。此时 ,从HSC的供体人群中随机选择了许多HSC(NTRAN),以移植到接受者中。此数字是从先前的分布中挑选的:
这导致NTRAN的绝对值在500至50,000之间。在RSIMPOP中,这些雕刻的HSC被分配给新的收件人室 。在HCT期间 ,维持具有驾驶员突变的移植克隆的选择系数。从NTRAN到目标NHSC人群大小以及随后的稳态造血衰老的HSC人群的再生,然后在捐助者和接受者中独立进行,直到抽血时为donor_agebd。在这一点上 ,停止模拟,并从供体和受体室随机挑选HSC,实验对应于生长到经历WGS的菌落中的细胞。
Simulations initially proceed as in model 1. However, at the point of selecting the Ntrans HSCs to be transplanted, clones harbouring driver mutations were given an additional ‘engraftment fitness’ coefficient Sengraftment, independent of the usual steady-state selection coefficient Shomeostasis, which then was used as a weighting for the probability of their selection for transplant within the base R function sample.选择每个驾驶员克隆的植入健身系数是从截短的伽马分布中随机抽奖:
这些γ分布参数是经验选择的 。然后将非驱动器细胞的植入适应性设置为所有sengroftment值的第30个百分位值 ,以使某些具有驱动突变的克隆在体内平衡期间具有选择性优势,实际上可能会降低植入植入时的适应性。
模拟进行如模型1所示。但是,在移植后 ,接收者中有10-30%的含驾驶员的克隆可能会夸大其选择系数的shomeostasis,增加了50-600% 。在植物后期的选择性优势的这种夸大是限时的,持续了5年,然后恢复到上一个值。时间限制选择性优势的动机是 ,由于多种原因,移植后环境是不寻常的:经过多种全血管减少症,并且在调节化疗后 ,受体骨髓是低塑性的;骨髓微环境最近受到白血病和强化化学疗法的影响,可能会改变选择性景观。在移植后的头几年中,经常有多种感染性或炎症发作 ,作为先天和适应性免疫系统的重新构造 。随着时间的流逝,通常存在残留的宿主免疫力。所有这些因素在移植后早期最为明显,并且至少可以随时间而部分解决。
对每对(n = 100,000)进行模拟 ,以及通过13个统计数据汇总的单独供体 - 经常系统发育的关键特征(图6中所示的受体系统发育的摘要统计示例)(4-6)为1-3,但对于受体系统发育;(7)供体系统发育中的单胎样品数量(单胎被定义为开发时间后没有相关样品的样品);(8)为7,但对于受体系统发育;(9)从估计的HCT估计时间左右 ,供体系统发育中的聚结数,该临床窗口被定义为在5年前和HCT之后5年的估计年龄出现的聚结处;(10)为9,但对于单独的受体系统发育;(11)供体系统发育中估计的时间点的融合数量,但在HCT之前 ,该前HCT窗口的定义是在5岁之间的估计年龄,在HCT之前的5年内定义为合并时 。(12)为11,但对于单独的受体系统发育;(13) ,在受体系统发育的单个进化枝内,围围HCT窗口中的最大合并数(如9所定义)。该统计量被设计为捕获数据中看到的增长选择的特征。
然后将根据模拟数据集计算的摘要统计数据的每个向量进行比较,与通过计算这些向量之间的欧几里得距离计算的数据计算得出的摘要统计数据 。为此 ,使用实验性生成的系统发育的经验修改的版本来提供时间树的最佳估计,即分支点的高度代表该细胞分裂发生的实际年龄。为此,首先对分支长度进行校正 ,以提高灵敏度和样品克隆性。然后根据铂和apobec突变特征的估计贡献(零星特征的零星特征,缩短了分支长度。最后,通过60个突变缩短了末端分支 ,这是对体外和分化相关突变的综合数量的估计 。基于(1)SNV负担与年龄的线性回归的Y截距(y截距= 137;扩展数据图5A)的过度近似,而其他研究(脐带血中的SNV负担〜60)。此外,在甲基纤维素上克隆膨胀期间(10-20个突变,未发表的数据)在克隆膨胀期间 ,分化相关突变数量的估计总和和典型的体外获得的突变的总和是相似的。在这些分支长度校正后,使用先前描述的迭代重量均值算法进行了超级实体,该算法对分支长度具有更大的置信度 ,其中分支由多个样本共享 。
不可避免地,摘要统计数据中使用的移植时期的定义在告知参数估计值中可能具有关键作用。同样,聚结的时间会受到某种随机变化的影响 ,因为突变以相当恒定的速率获取,但是在给定时间段内获得的绝对数量至少会受到Poisson的变化。为了评估ABC分析的鲁棒性,我们评估了这种差异是否导致每个时期的聚合数量的显着不确定性 。首先 ,我们使用了一个自举方法,从而从µ等于原始数量突变的负二项式分布中重新绘制所有分支长度,并且从该对中HSPC突变负担的分布中估计的θ过度分散参数(每对100个引导程序))。然后 ,我们重复将树超级和缩放时间扩展到时间的步骤,并计算出ABC中使用的每个时期中落下的聚合数量。这表明这些数字是稳健的,在某些值落在时代之间的边界附近的某些值中只有细微的变化(补充图7) 。
其次,我们评估了用于摘要统计的时期的特定定义是否有意义地改变了ABC的后验分布。具体而言 ,我们评估了四个替代时期:(1)将移植的间隔划分为更多的时代;(2)将移植间隔间隔划分为更多的时代;(3)使用移植间隔的分子时间范围较窄;(4)在移植间隔间使用更宽的分子时间范围。令人放心的是,在不同的ABC模型和参数中,不同的供体 - 重点对以及估计后验的不同方法 ,我们发现HCT时期的四个替代定义对推断的后验分布的影响最小(补充图8) 。
更详细地,在原始的摘要统计中,移植间隔间隔为10年的间隔 ,以移植时间为中心。移植前间隔从5岁开始,并在移植间隔开始的时间点结束(移植时间之前5年)。在pre_interval_divived的摘要统计集中,移植前间隔被两个前移植间隔所取代 ,这是5岁以下的第一个开始,在移植时间之前的5岁和5岁之间的中点结束。在peri_interval_divived的摘要统计集中,移植间隔间隔被两个移植间隔替换为5年 。在peri_interval_narrower的摘要统计集中 ,移植间隔间隔为5年的间隔,以移植时间为中心。在peri_interval_wider的摘要统计集中,移植间隔间隔为15年的间隔,以移植时间为中心。同时 ,我们比较了使用五个摘要统计组中的每一个产生的后验密度,我们还通过四种替代ABC方法扩展了此比较 。这些是ABC排斥法和三种ABC回归方法(脊回归,局部线性回归和神经网络方法)。
使用R软件包ABC的ABC函数进行比较。在此功能中 ,使用标准偏差(中值绝对偏差)的估计值进行标准化 。然后计算每组摘要统计数据的欧几里得距离。最接近1%的仿真。来自接受模拟的参数代表了(近似)后部分布的样本 。在拒绝采样方法中,未执行回归步骤。如果使用回归模型,则将其按在ABC函数中实现。但是 ,对于图2中存在的主要结果,使用了拒绝采样方法,因为这对于替代汇总统计量最强大 。
系统发育结构已被证明随着年龄的增长而变得越来越多。在先前的研究中 ,使用了不同年龄段的8个成年人的系统发育树来告知有关这些特征的基本参数的后验估计。19。我们运行了一个相同的模拟框架,即以恒定速率将驱动器突变引入到HSC人群中 - 使用了参考文献的后验参数估计 。19作为起始参数值。我们进行了25,000个模拟,将最终树的年龄从20年到100年变化 ,并改变了模拟的系统发育树的大小以匹配不同个体的生长树。
我们使用R包ABC的ABC函数来推断每个人年龄的后验估计,分别查看受体和供体系统发育 。与其他ABC相反,每个个体(不是HCT对)评估了系统发育,因此使用了较小的七个摘要统计数据来与数据进行比较:(1-3)最大的3个进化枝的大小;(4)单例样品的数量;(5–6)树的20-40和40-60世纪箱中的结合数;(7)位于膨胀进化枝内的样品的比例 ,在这里定义了至少3个测序样品的进化枝。这里的进化枝被定义为50个分子时间突变后具有共同祖先的一组样品(大约对应于胚胎后发育)。
选择模拟的前5%的年龄以进行系统发育年龄的初步估计 。和以前一样,然后进行神经网络回归以完善这些估计。
使用R封装LME4的LME函数,我们进行了线性混合效应回归 ,以估计供体/受体状态对系统发育年龄的影响。在回归中使用了系统发育年龄的所有单个后验估计值 。模型中的固定效果是供体年龄(连续预测变量)和供体/受体状态(分类预测变量)。没有使用交互项。HCT对ID被认为是随机效应,以说明后验估计值集的非独立性 。
我们想设计统计数据,以捕获和量化“克隆多样性降低的原因 ”部分中描述的修剪和生长选择的特征 ,并以特异性的方式显示了图4a – c,以反映不同的克隆可能会在不同点上获得优势。
对于每个扩展的进化枝,我们希望在接受者与供体相比 ,在HCT之前,在HCT之前,在HCT时期或HCT时(2)量化合并的增加。但是 ,在人口瓶颈的情况下,可以通过中性机制来增加生长选择统计量,因此仅是选择的有力证据,而从树上的移植植物旁聚结合的总数则偏向于该特定的进化枝。
我们首先计算1+该进化枝的比例为1+该进化枝中的1+的比例为1+的比例 。
在NPRE中 ,R是该时间到HCT时间窗口的特定扩展进化枝中的受体合并数,NR是扩展进化枝的接收者合并总数,而NPRE ,D和ND是捐赠者生长发育中同一扩展的进化枝的等效数。所有值都添加一个值以避免除以零。
这类似于修剪选择的统计量,但专注于Peri-HCT时间窗口中的聚结(从五年到HCT之后的五年的时间) 。
如果Nperi,则R是该时间到Peri-HCT时间窗口的特定扩展进化枝中的受体合并的数量 ,NR是扩展进化枝中的受体凝聚力总数,而Nperi,d和nd是捐赠者生长发育中同一扩展的进化枝的等效数。所有值都添加一个值以避免除以零。
我们的目标测序结果表明 ,与给定时间点(考虑从系统发育中知道的克隆时),与髓样细胞相比,T细胞比例较低 。我们向“淋巴舱内的克隆输出”部分提出了几个潜在的贡献者 ,其中之一是,在任何给定时间,T细胞的克隆组成都反映了HSC从最多8-15年前的HSC输出。鉴于HSC隔室的寡聚性随着年龄的增长而增加,因此T细胞的克隆性降低可能只是反映了这些年轻HSC的多克隆输出。
为了评估这可能导致的克隆比例扩大比例的观察到多少差异 ,我们进行了模拟(根据模拟框架1),在该模拟中,我们比较了HSC人群的寡聚统一的寡素性 ,从血液采样之前的4-8年开始(反映了T细胞的平均年龄,其寿命为8-15岁的平均年龄是平均水平的平均年龄,这是在平均水平的平均水平上 ,与该血液的平均水平相关,相当于该血液的平均水平,相当于该年龄 ,相当于该年龄的寿命,相当于该年龄的寿命 。(反映短暂的髓样细胞的年龄)。我们进行了3,000个模拟,在8 - 15年之间改变了寿命 ,并比较了T细胞从扩展的克隆到从扩展的克隆中的T细胞的总比例,这是T细胞克隆的寿命的函数。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得 。
赞 (8)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 从最初的45个HCT接受者和HLA匹配的兄弟姐妹捐赠者中选择了十对捐助者对,这些捐赠者被录入了原始研究3。所有捐助者和接收者都给予了书面知情同意,而原始研究和随后的修正案均...
文章不错《同种异体造血细胞移植后的克隆动力学》内容很有帮助