本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/jyfx/202506-2184.html
DNase I分析通常是根据先前详细详细介绍的42的协议进行的。该方案涉及用小酶DNase I处理完整的核,该酶DNase I能够穿透核孔和裂解暴露的DNA。在DNase I处理后,从裂解的核中分离出小(<1 kb)的片段 ,添加了接头,并测序了所得的库 。由于组织和细胞培养,分离和处理方案在不同的生物样本中有所不同 ,因此在补充表1中进行了索引。有关生物样品材料和DNase-Seq生物样品的选择和数据处理的其他信息,请在补充方法中获得。
在单个生物样品数据集中检测到DHSS,并在所有733个数据集中集成 ,以产生一组359万个共识DHS描述 。随后对这些元素进行注释,并估计了它们的质量,跨数据集和置信度得分的位置稳定性。补充方法中提供了此过程的详细说明。
为了评估与重复元素的DHS共识元素的重叠(扩展数据图2B) ,我们获得了从加利福尼亚大学圣克鲁斯分校(UCSC)Table Browser44下载的RepotMasker43注释,并考虑了各种重复类别和(子)家庭 。为了对人类基因注释进行类似的分析(扩展数据图2C),我们获得了Gencode45 v.28基本注释。我们将外显子定义为Gencode注释中指定的外显子 ,启动子为基因±1 kb的TSS,内含子为基因体的其余部分。基因间区域定义为基因体或定义启动子的未覆盖的区域 。我们将索引DHSS分配给了这些注释,需要至少1 bp重叠,在多次重叠注释的情况下选择注释最大的重叠。
从BRAVO网站(https://bravo.sph.umich.edu/freeze5/freeze5/hg38/download ,Freeze 5,HG38,VCF格式)获得了人类内部序列变化数据。我们将4.956亿个单碱基取代转换为核苷酸多样性得分(π) ,每个基因组基础位置的分数为零,没有变体 。每个碱基,将序列序列保护分数下载AS-I(http://hgdownload.cse.ucsc.edu/goldenpath/hg38/phylop100way/)。人类内部序列变异数据(π×104)和门托保护评分相对于DHS质心进行对齐 ,使用20 bp的非重叠的窗户遍布每个质心的1-kb区域(扩展数据图2G)。对于相对于DHS质心的每个窗口偏移,使用Bedops47子集对全基因组分数进行了亚s子,并用GNU Datamash平均。
对于从1到733个生物样本的随机尺寸子样本 ,我们估计了新数据集添加的新型DHSS的平均数量,这是采样的数据集总数的函数(扩展数据图2H) 。为了将这些估计值推算为将来的生物样品集,我们将日志模型拟合到数据。从饱和分析中 ,我们期望在任何新数据集中确定的绝大多数DHSS已在索引中表示,它们将贡献额外的信心和精度。可以通过使用原始的每个数据ASET DHS调用在编码DCC上永久记录的原始DATASET调用来添加增量数据集(补充表1) 。
我们使用NMF28,29进行了二进制矩阵的分解,该矩阵由N DNase-Seq数据集中M DHSS的存在或不存在调用成较小的K组件。与其他降低方法一样,NMF不能保证对原始数据的全部概括。取而代之的是 ,我们选择允许信息丢失以换取更明显的结果 。因此,我们考虑使用比输入矩阵的两个维度(733 DNase-seq数据集)的k分量少得多。为了使重建误差保持检查,我们使用了一个目标函数 ,该目标函数受到Frobenius Norm的约束(扩展数据图3A)。NMF通常使用随机的初始化步骤,从而导致结果不稳定 。为了减轻这一点,我们使用单数值分解(SVD)48,49进行了初始化步骤 ,从而导致一致的结果,同时保持与随机初始化实例相当的性能。补充方法中提供了针对DHSS的组件描述的更详细的理由,以及有关分解的实施和执行的详细信息。
为了帮助解释16个NMF衍生的组件 ,我们使用两种正交方法将标签分配给组件,基于(i)BioSample属性和(ii)DHS序列特征 。
首先,对于每个组件 ,我们根据其数据集中存在的组件特异性NMF负载选择了顶部的生物样本(扩展数据图4A)。这些数据集的这些最大NMF负载通常在各个组件之间都很强(扩展数据图4B)。通常,出现了与特定成分最密切相关的生物样本共享特性的清晰模式。为了进行正式化,我们进行了单方面的Mann-Whitney U测试,以评估共享某些元数据类别的生物样本的NMF负载(补充表1)是否大于给定元数据类别中未在给定元数据类别中的生物样本的NMF负载(补充表1)(扩展数据图4C) 。特别是 ,我们评估了与人体器官系统相对应的元数据类别和生物样本的癌症状态。使用Bonferroni校正方法校正P值以进行多种假设检验。k <16值的生物样品到组分分配的事后分析提供了对我们k = 16个成分模型的起源的洞察力,显示了连接点,此后通过不同的组件捕获了单独的细胞类型谱系(扩展数据图4D) 。
其次 ,对于每个组件,我们获得了该组件的最大NMF负载的DHSS,随后对TF结合位点基序进行了富集分析(扩展数据图4E)。我们使用了广泛的TF基序并使用了FIMO50(匹配阈值P <10-5)来搜索人类基因组中的基序实例。我们使用Fisher的精确测试测试了基序与特定NMF组件的关联 。我们使用了类似主题的簇(http://www.mauranolab.org/cato/weblogos/main.html) ,以进行摘要和可视化。结果显示了组件特异性基序的强烈富集,表明与组件相关的转录因子的优先结合(扩展数据图4F)。
1)生物样品特性和2)与特定成分的TF结合位点的强烈关联使我们能够标记每个NMF组件,从而导致DHS词汇(图2D) ,在补充说明中进一步详细介绍 。对于下游分析,我们用最强的NMF组件标记了每个DHS(图2E,底部)。
为了测试在NMF模型中诱导其他稀疏度的效果 ,我们在跟踪F1分数和模型中使用的非零参数的分数时系统地增加了L1惩罚设置(扩展数据图5A – C)。每个组件的前15个组件归因于生物样本主要与图2E和扩展数据一致,图4a而没有L1惩罚,这表明实施额外的稀疏性不会影响模型组件的解释 。
为了测试某些细胞类型的可能过多/代表性不足的影响,我们删除了44(40%)造血生物样本 ,由代表独特细胞条件的最高质量数据集组成(补充表1)。构建了新的NMF模型后,我们观察到,尽管剩余的(较低的)造血生物样本现在被单个成分而不是两个组件捕获 ,但对剩余的非haematopoietic组件的解释不会改变(扩展数据图5d)。
我们根据将组件标签的随机分配给DHSS的随机分配和对相同数量的DHSS 1,000次进行了比较(扩展数据)。
为了说明DHS组件数据的区域多样性,我们通过平均范围为15个DHS组件(扩展数据的扩展数据)来生成元dnase轨道,该轨道通过平均全基因组DNase-seq信号谱图的前15位生物样本的平均值与每个组件最密切相关(扩展数据图4A) 。为了进行视觉简洁 ,我们提供了覆盖所有DHS组件的元dnase轨道的聚合轨道(例如,图3C,扩展数据图6B ,C,C,7A – H ,8A – C)。
我们将基因的调节景观定义为基因体内的DHSS集,以及最大5 kb上游的侧翼区域的DHSS,以及最大的基因体下游1 kb的DHSS,或直至上游到上游的中途 ,直到上游到上游的值较小,一定的值是较小的(图3A,图3A ,图3A,扩展数据)。这捕获了大约65%的所有DHS(扩展数据图6D),并防止侧翼区域DHSS通常被定期分配给多个基因的调节景观 ,从而减轻了调节信号的混合 。
我们分别测试了所有56,832个注释的Gencode基因(图3B)与每个DHS组件的关联。在零假设中,DHS成分在基因调节景观中随机分布,我们使用二项式分布来测试特定基因调节景观中DHSS中注释给定成分的DHSS比例是否更高。我们通过计算所有基因和成分的Q值51来控制FDR ,以5%的速度控制了FDR 。补充方法中提供了更多详细信息。为了研究以基因为中心和以TSS为中心的方法之间的差异,我们计算了围绕TSS(即TSS±5 kb)的10-KB区域的组件关联,并评估了所注入的基因的数量和类型(扩展数据数据图6H ,I)。
Gencode V.28(基本)注释用于所有分析 。为了标记和可视化基因,对于每个基因,我们将其最长的转录本用作其代表区域。伪基恩注释是从psicube52,http://pseudogene.org/psicube/data/gencode.v10.pgene.pgene.parents.txt获得的。
我们使用T-SNE可视化DHS组件的基因调节景观的富集比(图3D ,扩展数据图8A – C) 。显示的每个点表示一个基因,发现与一个或多个DHS成分显着相关,并且这些基因的结合是用于计算2D嵌入的基因。使用RTSNE软件包中提供的R(http://www.r-project.org)实现 ,默认参数。基因根据其(最富集)的重要DHS成分进行着色。
我们使用了完整的Human ArchS4数据集(2018年6月26日下载)31,并为每个DHS词汇组件(补充方法)选择了相关的组织和细胞类型 。这导致了总共33,733个独特的基因表达数据集,并提供了35,238个基因的表达信息。对于每个基因 ,我们获得了为每个DHS组件选择作为该组件中的代表值的数据集的第95个百分位数,而不是由数据中的异常值引导,同时仍然对单元类型的选择性表达式水平敏感。对于每个DHS成分 ,我们计算了用该成分标记的基因(观察到)以及所有组分标记基因(预期)的平均表达水平 。结果值报告为log2转化的富集比(图3G)。
从MSIGDB集合(http://software.broadinstitute.org/gsea/msigdb/genesets.jsp?collection = cp)获得了一组策划的规范途径。通过在与所有途径相关基因的社区中合并DHSS,对途径富集分析(扩展数据图8D,E)类似地与基因富集分析进行 。我们使用KEGG35 REST API(https://www.kegg.jp/kegg/kegg/rest/keggapi.html)下载并以图形方式注释KEGG路径表示。
我们仅用于单个组件的DHSS。对于具有已知序列结合基序的每个组件标记的TF基因 ,我们获得了DHS的子集,即(i)以与TF相同的成分注释(II)包含TF匹配基序和(iii),并且在与同一Components25相关的生物样本中(图3H)中占用了TF匹配基序和(iii) 。尽管以上分析确定了由于严格的过滤,具有可变信息含量的基序以及可获得足迹数据的较小范围的生物样本范围 ,但可以使用较少的极端参数概括以识别较大的DHSS,以合理的信心识别较大的DHS。
我们从Neale Lab(http://www.nealelab.is/uk-biobank/)处理的英国Biobank Project获得了GWAS摘要统计数据。此外,我们获得了使用Bolt-LMM v2.353计算的GWAS摘要统计数据 ,如最近的工作38所用 。
通过去除基于狭窄的SNP遗传性54(HG2)的人,策划了GWAS特征。尽管理想情况下,我们将通过考虑变体的真正因果作用来量化遗传力 ,但实际上我们没有观察到这些遗传性。取而代之的是,我们仅限于GWAS的摘要统计数据,这些统计量基本上描述了每个变体的边际性状相关 ,包括因LD而引起的因果效应和效果,以及统计噪声。最近提出的方法(例如LD评分回归(LDSC)55)能够估计遗传力,同时明确考虑基础LD结构 。对于连续的性状 ,如果可以使用原始和反向归一化(IRNT)版本,我们只保留后者。这总共产生了1,316个特征,用于随后的HG2至少1%的分析。
对于定量性状与分量分析(图4A,扩展数据图9a – c) ,我们评估了越来越严格的GWAS变体子集之间的性状关联强度(GWAS变体关联p值P值)和含有变体DHSS的成分注释之间的对应关系 。如前所述,使用二项式分布计算富集P值6。我们使用1,708个大约独立的LD块57中的每一种,使用LD Clumping56的形式明确控制大规模LD结构。也就是说 ,对于每个LD块,选择了与DHS重叠的GWAS关联p值最低的变体进行后续分析 。如果存在多个此类含有变体的DHSS,我们优先考虑DHS指数中具有最高置信度评分(平均信号)的DHS。
为了用最大统计能力估算HG2 ,我们使用LD分数回归(LDSC)55明确考虑了LD结构。In particular, we used a stratified version of LDSC (S-LDSC)36 to partition heritability estimates according to pre-defined sets of genome-wide annotations (Fig. 4b, c, Extended Data Fig. 9d, e), consisting of our annotated DHSs in addition to a wide range of 85 genome-wide functional ‘baseline’ annotations (baseline-LD model v.2.1).v.2.1基线集由总共86个全基因组注释组成,这是基于V.2.0组中使用的76个注释和其他几个注释58 。这些“基线”注释编码SNP是属于蛋白质编码还是非编码区域,进化保护水平增加的区域 ,预测或确认具有增强剂活性等等。他们的宽度提供了一个强大的36基线模型,以测试我们DHS组件的特质遗传力贡献。我们表达了注释的遗传力富集,因为其比例HG2的比例和注释涵盖的SNP的比例(图4B) 。
分析中包含的变体是在HAPMAP3中注册的变体 ,最小的小等位基因频率(MAF)为5%,不包括人类主要的组织相容性复合物(MHC)基因座。基线LD分数是从欧洲祖先人群和相应等位基因频率的1000个基因组第3阶段数据计算得出的(如先前使用的58,可从LDSC参考下载页面上获得,以及Baseleleld Annotation SET:https://data.barada.badain.broadinstitute.orgg/alkesgroup/ldscore/)。
我们将S-LDSC应用于DHS词汇组件 ,如下所示。简而言之,将每个DHS分配给其多数DHS组件,并(如果可能)分配给重叠变体 。对于最终的基于词汇的注释 ,计算LD分数。然后,我们针对这些基于这些词汇的注释和上述的巴塞莱内尔德模型分别对所选1,316个特征中的每个特征分别执行了S-LDSC。对于每个性状与注释组合,我们获得了其遗传力富集36的估计值 ,表示为HG2的比例和注释所涵盖的SNP的比例(图4B,C) 。我们认为,在所有考虑的特征和DHS组件中计算出的估计的FDR估计的FDR估计的FDR估计的FDR上 ,遗传力富集具有统计学意义。这比用于多个假设检验的常用均等校正更为严格。
S-LDSC模型中包含的多个(重叠)基因组注释的贡献可能会混淆遗传力富集的估计值 。为了量化对遗传力的唯一贡献贡献,我们在控制模型中所有其他注释(基线注释和DHS组件)36之后,获得了归因于该组件的遗传力的平均每个SNP增加。从报告的系数及其标准误差中 ,我们得出了每个性状与相关组件组合的Z分数,单侧P值和FDR校正的Q值(图4D,E)。对于组分一致性DHSS中的遗传力分析(图4F),我们根据它们是成分是一致的 ,不一致的基因(遗传对照)还是基因间的成分,分量不一致,将其进一步对DHSS进行了分层 。图4F显示了图4C中确定的最大富集组件的Z得分。
为了量化每数据库DHSS的遗传力贡献 ,我们对标准S-LDSC程序进行了变化,如前所述36。具体而言,我们通过迭代考虑仅来自单个数据集的注释来构建基于巴塞莱内尔德模型 。通过为每个特征选择每个DHS组件最有用的15个数据集来收集这些单独的数据集(图4A)。注释包括在这些数据集中观察到的DHSS及其补体 ,即索引DHSS的其余部分。我们报告了基于前者的遗传力的贡献,称为z得分(图4D,E)。
在保留组件的相同解释的同时 ,可以将新数据集添加到当前的NMF模型中(扩展数据图10A) 。简而言之,从感兴趣的新数据集获得了0.1%的FDR变化峰值调用,使用bedops47映射到DHS索引元素 ,并使用标准NMF例程投影到现有组件空间中(请参阅代码以获取更多详细信息)。
我们使用bedops47查找感兴趣的数据集的DNase-seq信号水平,而不是索引元素,以确定在数据集中是否启用了给定元素。以分类问题表示,使用现有的0.1%FDR变化峰值呼叫作为地面图集 ,我们评估峰值恢复的精度和回忆 。对于所有733个生物样本,我们在精确召回曲线(AUPRC)值下的区域范围从0.33到0.83(中位数为0.71; IQR,0.64-0.75) ,并带有滋养细胞生物样品(encode dcc dcc标识符ENCBS576QRR),显示为示例(示例)。匹配的AUPRC值与非匹配的生物样本之间的巨大差异允许识别原始的生物样品(扩展数据图10b),同时表明具有相似AUPRC的生物样品对具有相同的生物学特征(扩展数据图10c)。对于看不见的数据集(扩展数据图10D) ,也可以遵循此过程,特别是对数据集进行了不太深刻的数据集,或者否则却太稀疏了 ,无法在从头上调用峰,例如单细胞染色质分析数据 。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。
赞 (11)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: DNase I分析通常是根据先前详细详细介绍的42的协议进行的。该方案涉及用小酶DNase I处理完整的核,该酶DNase I能够穿透核孔和裂解暴露的DNA。在DNase...
文章不错《人DNase I超敏部位的索引和生物谱》内容很有帮助