本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zshi/202506-1867.html
在人和小鼠基因组中编码的顺式调节元件的全面发现和注释是Encode 1,4,5,6的主要目标 。活跃或有固定增强子 ,启动子或绝缘子元件的基本生物化学特征是局灶性染色质生化标记和DNA可及性的增强,这是由于序列特异性调节因子代替规范核小体的结合而导致的。可以检测到这种提高的可及性是对DNase-Seq40映射的对核酸酶的超敏反应,或者是对ATAC – SEQ27映射的转座酶插入的敏感性。除核酸酶高敏性外,活跃或有固定的增强子和启动子通常在侧翼核小体上表现出特征性的组蛋白修饰特征4,41 ,而哺乳动物绝缘子元素则由CTCF42占据。因此,DNase-seq信号可以与组蛋白H3上的三甲基化赖氨酸4(H3K4ME3)的芯片 - 芯片(H3K4ME3)集成在一起,这是转录启动子41的特征 - 注释活跃和固执的启动子43 。同样 ,H3K27AC以及DHS周围H3K4ME3的相对缺乏性与基础DNA元素处的主动增强子功能密切相关。
我们已经应用了与TSSS的Gencode注释集成的这些简单的核心生物化学特征,以创建人类和小鼠CCR的初始注册表,这些注册表在一个或多个编码生物样本中显示了活动的签名或用于活动的签名。使用补充注释1和2(补充图1-5 ,补充表9-15)中详细详细介绍的分类系统(图3),我们注释人类基因组中的总计926,535个CCR(补充表10)(补充表10)(补充表10)和339,815 CCR中的小鼠基因组中(补充表11),较小的基因组和7% ,以及7.9%和3.4%,以及7.9%,以及编号为3.4%;由鼠标数据集的稀疏生物样品覆盖范围产生的小鼠CCR数量 。部分原因是 ,与编码II和路线图数据相比,编码III数据的编码第三阶段对原代细胞和组织的关注,将注释的人CCR的数量增加了22%,而TSS-Dististal CCRE的增加最为明显(补充注释3 ,补充图6)。CCR的人类注册表涵盖了以H3K4ME3或H3K27AC标记的80%以上的元素或任何生物样品中的CTCF(错误发现率(FDR)<0.01)的元素,在Gencode和Fantom集合中占50-70%的TSSS(补充注释4,补充注释4 ,补充图4,补充图7)。尽管较早的研究根据组蛋白修饰的特征确定了推定的增强剂,但编码注册中心在元素数量和调查的生物样本范围内都大大较大(补充注释5 ,补充图8 、9,补充表16) 。此外,该注册表通过追踪大型生物样品空间中每个注册表元素的主动或有固定的签名的元素列表不仅超越了分类(补充注释1 ,补充图1-5,补充表9-15)。类似地,尽管对良好的TSS的了解足以识别大量蛋白质编码和非编码RNA启动子区域的一部分 ,但 我们通过注释生物样本来丰富这些信息,其中这些启动子显示活动的证据或准备活动。我们注意到,我们的类别不包括具有主要沉默活性的元素,并且我们没有声称当前的CCRE分类方案反映了基因组中编码的调节活性的完整生物学谱 。
我们首先将CCR分割为类似增强子 ,类似启动子和仅CTCF类别的类别,并指出CTCF占用的元素可以指定几种明显不同的活动,包括候选绝缘子 ,增强剂阻断器和染色质loop链球锚固元素45,46。尽管大多数类似增强子的元素映射到启动子距离区域(也就是说,来自TSS的几千碱基),但许多已知的增强子均靠近TSS47。以前 ,编码已通过使用宽敞的固定间隔定义(例如,TSS周围±2.5 kb)分析了含有启动子的区域1 。该任意截止的效果是将TSS和最小启动器功能与启动子 - 促增强子功能相关。为了更好地识别启动子 - 高增强子样子的CCR,并有助于将它们与主动启动子签名区分开 ,我们采用了一种Gencode TSS-AwawAwawe方法,该方法重点介绍了主要的组蛋白芯片芯片信号,并在已知的TSS周围施加了其他参数(请参阅方法 ,补充注释1,补充图1-5,补充图。以这种方式,我们利用编码DNase-Seq数据的高位置特异性更有效地使用了由于围绕TSS峰附近的区域扩散而固有地分辨率较低的组蛋白修饰模式。这使我们能够定义三个主要的注释组:(i)活跃和固执的增强子样元素(近端和远端 ,人类CCR的15.3%和72.1%);(ii)主动启动子样元素(人类CCR的3.7%);(iii)仅CTCF的元素(占人类CCR的6.1%),如方框1所述,并在补充注释1中详细介绍 。三组中的元素称为具有增强子的标志(ELS) ,启动子样签名(PLS),或分别是CTCF的ctcf。第四组包含以DNase和H3K4Me3(DNase – H3K4Me3;人类CCR的2.8%)标记的可能固定元素。
我们还将这种分类方案应用于注册表的鼠标部分(图3),旨在提供有用的高级框架 。但是 ,当前的CCRE分类方案并未尝试明确剖析复杂的多元素模块。当在不同的生物样本中检查CCR的显着子集(17%)显示复杂或复合行为,例如,在另一种细胞类型中显示了一种增强子样特征 ,在另一个细胞类型中显示了类似于CTCF的签名(扩展数据图1)。这些关系可以很容易地从补充表10,11中提供的整个CCR列表中提取 。
CCR沿着人类染色体的分布和CCR的进化保护概况与DHSS的整体48相似(补充注6,补充图10 ,补充表17)。由于CCR锚定在DHSS上,因此它们的分辨率相对较高,大小为150至350个碱基对(BP;扩展数据图2A)。在所有CCR中,估计的保护水平均高于随机选择的基因组区域 ,并且保护水平从PLS到EL到仅CTCF的元素降低(扩展数据图2B;补充图10A,B) 。大多数人(56%)和小鼠(72%)的CCR在其他物种中具有直系同源序列,这显着高于人类的背景速率24%的背景速率和使用随机选择的基因组区域计算的小鼠的31%。此外 ,对于具有人类直系同源物的大多数(65%)的小鼠CCR,直系同源物也是CCRE(扩展数据图2C)。CCRE分类与其他编码数据类型非常一致 。例如,活动CCRE-PLSS显示RNA聚合酶II和横向信号与转录启动一致(扩展数据图2d ,3a)。CCRE-ELS元素显示出与增强子相关的共激活因子(例如EP300)(扩展数据图2D)的占用率,并且它们与人和小鼠中实验确定的增强子元素显着重叠(见下文)。与较早的研究48一致,CCRS全面地重叠了扩展的编码转录因子芯片 - seq数据。实际上 ,中位编码转录因子芯片奇数数据集的峰的90%重叠了CCRE(扩展数据图3B,补充注释7,补充图11a – d ,补充表18) 。此外,正如许多活跃增强剂所预期的那样,大多数CCRE-ELS显示出通过全局跑步测序(GRO-SEQ)或精密核跑步测序(Pro-Seq)测定的新生双向转录(Pro-Seq)。 (Extended Data Fig. 3c, d, Supplementary Note 8, Supplementary Fig. 12), and cCRE-PLSs and cCRE-ELSs had high overlaps with specific classes of FANTOM-annotated TSSs and ChromHMM-annotated chromatin states (Extended Data Fig. 3e, Supplementary Notes 4, 5, Supplementary Figs. 8, 9, Supplementary Table 16).总体而言,CCRE-ELSS的活性格局反映了组织类型 ,发育起源和发育阶段(扩展数据图4,补充表19),并与表达的Poly-A RNA转录组的全球组织相似(补充注释9 ,补充注释,补充图11E – G,图11E – G ,补充表20)。小鼠发育系列可以将差异基因表达与多种组织类型的CCR附近CCR的差异表观遗传信号整合在一起,并有助于鉴定调节基因表达程序的CCR(补充注释10,补充图13 ,补充表21) 。
为了研究妊娠中期小鼠胚胎中预计将是增强子的CCR的时空活性,我们使用转基因小鼠增强剂 - 转换蛋白测定方法测试了151个含CCRE的基因组段(补充注释11,补充图14 ,14,15A – E,补充表22)。根据单个发育时间点(胚胎后胚胎第11.5天; e11.5),根据三种小鼠组织(中脑 ,后脑,肢体)中的每一种选择这些片段进行测试。简而言之,含CCRE的段中心以相应组织中存在的DHS为中心 ,然后根据该组织中的重叠DNase和H3K27AC信号强度进行对(请参阅方法) 。这导致了三个独立排名的列表,分别为104、92和1.19千名DHS,在小鼠E11.5 Midbrain ,Hindbrain和Limb中具有预测的增强子功能。最初的转基因报告基因调查发现,主动构建体集中在H3K27AC信号的顶部四分位数中(补充注释11)。为了进一步探索这种关系,我们从三个生化等级层中选择了秩1 ,那些组合DNase和H3K27AC信号的秩(〜上0.1%);等级2,一个集中在1,500级的小组;排名第3,另一个小组以3,000级为中心 。从每个组织排名的组中 ,我们选择了具有高信号的片段进行测试(中脑51个碎片,后脑50片段,肢体50)(补充表22)。
通过小鼠转基因增强子 - 重复蛋白测定法分别测试了151个含CCRE的片段中的每个片段,该测定提供了整个胚胎49中对报告基因表达的敏感空间读数。我们为每个段进行了多个重复测定(至少三个独立的转基因胚胎) 。如果在E11.5处的目标组织中始终如一 ,在目标组织中特异性观察到LACZ表达,则判断含CCRE的片段是编码调节活性的(请参阅方法)。总体而言,在151个测试的CCR中 ,有67个表现出可检测到的体内报告基因活性,这与其组织预测一致(图4A,B ,补充注释11,补充图15A – E)。此外,随着复合H3K27AC-DNase评分的频率下降 ,在转基因测定中的体内活性下降,从最高级别的CCRE-ELS的最高CCRE-ELS的频率下降到最高级别的CCRE-ELS的60–75%范围为20-27%。由于我们的CCRE-ELS列表没有被过滤以排除多个组织中的预测活性或消除一个以上CCRE的段,因此除了用于选择和优先次序的组织外 ,几乎一半的测试构建体在其他组织中都活跃(图4B,补充图14,15A – E) 。在大多数情况下,这些具有多个组织活性的CCRE-ELS在相应的活性组织中还具有高复合H3K27AC-DNase评分。但是 ,我们还观察到在仅在一小部分组织中测试阳性的几个组织中得分高的CCRE-ELS(补充注释11)。在E12.5进行的第二项转基因研究中获得了高度相似的总体结果,并在编码伴侣研究中报告了(补充注释11,补充表22) 。
接下来 ,我们将CCR与使用编码参考人类细胞系GM1287850和K56251进行的两个大规模平行报告基因测定法(MPRA)进行了比较(补充注释12,补充图15F -H)。在独立的大规模测定中,对增强子和启动子活动的独立大规模测定法显示了近一半的编码CCR。对于在GM12878中定义的CCR ,它也与一组独立选择的MPRA Elements 50相重叠,44%的总体活跃,而背景活动率为12% 。具体而言 ,近端ELS,远端ELS和PLS的比例分别为28.8%,39.8%和58%(图4C ,补充注释12,补充图15F,G)。此外,当在核苷酸的水平上评估时 ,在K562中定义的大约69%,46%和73%的近端ELS,远端ELS和PLS评估 ,分别在K562中定义了积极的结果,该调查显示了对LETENT促进者的培养基的调查(肯定)Assay51(肯定)ASSAY51,图15。相比之下 ,全基因组背景正率仅为4% 。因此,尽管瞬态增强子 - 重复程序测定测试的DNA片段短于平均CCRE,并且通常仅部分重叠CCRE ,但人CCR被大量富集了增强子样活性。
总体而言,这些初始功能评估表明,CCRE-ELS隔室的至少三分之一编码的转录控制元件在当代细胞转染测定中产生阳性结果 ,而在更严格的转基因小鼠胚胎系统中,以更强的生化特征标记的较小数字具有活性。但是,重要的是要确认每个测定系统都有固有的局限性 。上述方法中没有一种在其天然染色体上下文中询问CCR,也没有测试CIS中CCR之间的组合相互作用。这些测定还不能说明表现出DNase I超敏反应的固定元素 ,但通过其他反式信号或细胞环境在功能上进行门控。此外,我们承认并非所有以高水平的H3K27AC功能作为增强剂标记的开放染色质区域的可能性。因此,这些区域不会在此处进行的功能表征实验中测试阳性 。这些警告可能部分通过基因组和表观基因组编辑方法来解决 ,这些方法可以原位操纵调节性DNA和相关的染色质。
为了促进CCRES注册表中包含的可能正面转录调节或绝缘函数的DNA元素的丰富资源,我们创建了一个基于Web的工具称为屏幕(搜索候选CIS cis-cis-conduntoration excode; http://screen.encodeproject.org)(box 2)。屏幕具有三个组件(“应用程序”):(i)通过生化信号或元素类别对CCR进行过滤,选择和可视化的注重CCRE的应用程序 ,以及将CCR与基因的集成和编码注释,例如转录因子占用率;(ii)一种以基因表达为中心的应用,可促进任何具有相应CCR的生物样本的RNA转录信息的检索;(iii)促进CCR与基因组关联研究中人类遗传变异的检索和整合的应用 ,如补充注释13中所述(补充图16-20,补充表23) 。
除了本报告中描述的CCR的注册表外,其中一份编码伴随论文开发了一种机器学习模型 ,该模型借鉴了所选参考单元类型中的编码数据的深度,以预测增强子从自传输的主动调节区域测序(Starr-Seq)数据中预测。另一份编码伴侣论文扩展了该模型,以将CCR与基因联系起来,从而构建了大规模的监管网络 ,该网络是疾病研究的宝贵资源38。一个二维表观遗传状态分割模型Ideas53,是小鼠造血率的调节区域注释和靶基因评估的基础28 。在发育中的小鼠肢体中,通过使用单细胞RNA-SEQ16将来自大量表观基因组数据的思想元素反卷积为特定的细胞类型分配。
赞 (9)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 在人和小鼠基因组中编码的顺式调节元件的全面发现和注释是Encode 1,4,5,6的主要目标。活跃或有固定增强子,启动子或绝缘子元件的基本生物化学特征是局灶性染色质生化标记...
文章不错《扩展的人和小鼠基因组中DNA元素的百科全书》内容很有帮助