本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zlan/202506-874.html
这项研究主要分析了肿瘤基因组测序患者的数据 ,并从两个部分重叠的来源完成了肿瘤注册表:MSK-IMPACT测序的患者(形成MSK-Chord的基础)和美国癌症研究协会的BPC Project Genie BPC共同,其中包括肿瘤基因组群和临床临床的患者,其中包括MSS的MSK。有关BPC的详细信息之前已发表7 。在这里 ,我们在BPC中包括了单一NSCLC,乳房,结直肠癌,前列腺或胰腺癌的患者。MSK-Chord队列包括MSK的患者 ,MSK是一家学术癌症医院,使用MSK-Impact进行肿瘤基因组测序,这是一种由食品和药物管理的肿瘤基因组分析测定法 ,它使用匹配的白色血细胞测序来过滤克隆性骨负质体和生殖变体。所有MSK患者均作为前瞻性测序方案(NCT01775072)的一部分,或作为机构审查委员会(IRB)批准的回顾性研究方案(MSK IRB协议16-1463和19-368)进行分析 。该研究得到了MSK和DFCI的IRB独立批准。患者提供了书面,知情同意 ,并以连续的非随机方式入学。此处的数据来自2023年9月9日的快照。
对于涉及基因水平汇总肿瘤基因组改变的所有分析,使用食品和药物给药识别的分子知识数据库(ONCOKB34)用来注释所有突变,拷贝数变化和结构变化(无论是致癌性还是非基础);任何这种致癌改变都会导致基因以分析目的标记为阳性 。对于将非MSK BPC患者用作外部验证队列的OS模型 ,仅将BPC的所有测序面板中存在的基因用作变量。对于其他基因组分析,将第一个MSK Impact测序面板中包含的341个基因用作变量。从MSK Impact数据中鉴定出每个染色体组的基因组收益和损失的存在或不存在 。GRCH37(也称为HG19)中的染色体臂的基因组坐标被认为是获得或丢失的,如果大多数臂(> 50%)由绝对值对数比为≥0.2的段组成(参考44)。
数据预处理。用于计算机断层扫描(CT)的放射学报告 ,正电子发射断层扫描和磁共振成像检查胸部,腹部,骨盆,头部和/或四肢的磁共振成像检查 。使用正则表达式对报告部分进行了细分 ,以将“印象”部分与完整报告分开,以便于其可用的情况。与手动策划的MSK-BPC标签相对应的印象文本,以癌症 ,肿瘤部位和癌症进展的存在,以创建标记和文本的直接映射。
影像学进程 。我们对从放射学报告中提取的印象部分与二进制的人类策划的进程标签进行了微调。标签被称为“进步/恶化/扩大 ”和“混合”为正面的两个精灵BPC标签类,将其称为正面 ,并将其他类别称为负面(“改善/响应”,“稳定/无变化 ”和“未陈述/不确定”)。
在文档级别提供了二进制监督标签(即,对模型进行了培训以预测给定印象部分的单个二进制变量) 。我们使用了Roberta的Pytorch46实现 ,并从Huggingface库和Model Hub47中验证了模型权重。文本用默认的Roberta令牌化进行了标记,并使用第一个[CLS]伪token的默认调节方法汇总了报告级预测。我们使用了128个批量的大小,使用ADAMW Optimizer48进行微调 ,使用2×10-6的学习率,并进行20个时代的微调,并具有线性衰减的学习速率调度仪,并具有2个上调的热身时期。通过随机搜索选择了超参数值 ,该搜索使用跨学习率值的20%报告集{1×10-6 、2×10-6、5×10-6、1×10-6},批量尺寸值{8 、16、32、64、128 、256}和Num-epochs {8、16、32 、64、128、256}和num-epochs {5 、10、20、20 、50、50、50 、50、50、50、50 、50、50、50 、50、50} 。在整个MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果)。
肿瘤部位。我们对Clinicalbert Model49进行了微调,该临床Bote49本身就是Mimic-III v1.4数据库51的报告中的Biobert Model50 。我们从放射学报告中提取了印象部分 ,并将其与Genie BPC数据集的报告级监督配对。将标签转变为十个二进制变量,与九个常见疾病部位(肾上腺,骨骼 ,中枢神经系统或大脑或大脑,腹腔内,肝脏 ,肺,肺,淋巴结 ,胸膜和生殖器官)的封闭库存相对应,并描述了一个“可变性”,该报告是否在指示的tamor中,该报告是否可变性。
该模型接受了多标签设置的培训:合并的变压器输出输入了具有TANH非线性的单层完全连接的宽度D网络 ,其输出线性转换为十维矢量,从而提供了十个logits,从哪个二元交叉镜头损失了 ,从哪个二元交叉触发器中计算出金色的均值损失 。换句话说,网络计算
in which x is the tokenized document, φ(x) is the pooled transformer output vector, W is a learned affine transformation outputting a d-dimensional vector, tanh is applied element-wise, V is a learned affine transformation mapping d-dimensional vectors to ten-dimensional vectors, and σ is a plain element-wise sigmoid function;f(x)是0到1之间的值的十维矢量。请注意,不同的每场地预测是非截然不同的 ,并且鉴于后池D维隐藏状态,并且有条件地是独立的。
Clinicalbert模型在Pytorch46中实施;我们在拥抱面库和模型HUB47中使用了模型和预估计的模型权重 。我们使用第一个[Cls]伪token上的默认调节方法汇总了变压器模型输出,该方法已预先到包含印象部分的序列上。我们使用了使用ADAMW48进行培训的ADAMW48 ,使用批量8,学习率为2×10-6,辍学率为0.2(应用于后池单隐居单层馈电网络)和1,024的前隐藏率 ,1,024个训练的训练,15个epochs的训练率为1.5 epochs。在整个MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果) 。
癌症的存在。我们对从放射学报告中提取的印象截面与二进制的人类策划的癌症证据标签进行了微调53 bert52基本模型(未基于)的模型。标签被称为MSK-BPC标签1级为癌症的“是”,并将标签0称为“否 ”标签,因为不存在癌症。在文档级别提供了二进制监督标签(即 ,对模型进行了培训以预测给定印象部分的单个二进制变量) 。按照描述的肿瘤部位训练BERT模型。用默认的huggingface自动言器将文本用于BERT,并使用第一个[CLS]伪token上的调理方法汇总了报告级预测,以备构成印象部分的序列。我们使用的批量大小为32 ,最多为10个时期 。我们使用ADAMW Optimizer48训练了模型,使用1×10-5的学习率,1×10-8的Epsilon ,重量衰减1×10-4,没有热身效果。在训练过程中,优化了模型权重以最大程度地减少跨透明度损失。
数据预处理 。通过医学肿瘤学家 ,辐射肿瘤学家,手术,住院服务等人创建的初步咨询(IC)和后续说明对患者的临床医生注释进行了询问和过滤。机构数据库中的注释分为小节 ,包括家族史,当前疾病,合并症等。音符子款的进一步过滤或组合取决于应用程序 。为了推断先前的外部药物,IC笔记已被过滤 ,并包括与外部治疗有关的部分,例如过去的病史,当前疾病的历史和主要的投诉 ,同时排除了提及未来治疗计划的部分。在允许音符类别中没有IC注释的患者被排除在培训和验证集中。我们排除了有IC票据的患者在初次访问日期之后90天以上的患者 。我们选择了每个患者的一张便条进行分析。如果患者有多个音符,则使用最早创建时间的IC音符。用于推断HER2和激素受体的预处理包括由乳房医学划分产生的过滤音符组成,为此 ,将整个IC和后续音符用作模型的输入。
事先外部治疗 。上面介绍的其他基于变压器的模型基于印象部分通常很短,因此看不到从截断文档到最大模型输入序列大小为512个微功能的最大模型输入序列大小。对于这些模型使用的全自自动注意参数化是必需的,需要在输入序列长度上四次地缩放内存缩放。但是 ,完整的IC报告明显比印象部分更长,并且在更长的文本上下文中,任何提及先前的抗塑性治疗方法都会发生 。因此 ,我们使用工程设计的变压器模型具有次级记忆要求;特别是,我们微调了临床长形的Model54,它本身就是模拟器上的longformer Model55,对MIMIC-III V1.4数据库进行了微调。该模型的最大输入序列长度为4,096个微动物。
Pytorch46中实现了临床倾斜器模型;我们在拥抱面库和模型HUB47中使用模型和预估计的模型权重 。我们使用第一个[CLS]伪token上的默认调节方法池量池模型输出 ,该方法已备用到包含印象部分的序列。我们使用64个批量的批次训练ADAMW48,学习率为1×10-6,对20个时期的训练 ,热身时期为2个时期。我们在训练过程中均匀地统一地样本少数级示例,以实现班级平衡 。在MSK-BPC队列训练的模型上介绍了外部结果(即结合模型预测的主要结果)。
HER2和激素受体。由于HER2和激素受体在病理样本中可能是异质性的,因此我们试图根据临床医生笔记创建一个分类器 ,以确定用于治疗治疗的患者癌症的总体受体亚型 。在培训中,我们使用了6,053例单培养乳腺癌患者的临床医生笔记,并用手动注释的HER2和激素受体亚型来训练单独的HER2和激素受体二进制分类器。我们在该队列中进行了90/10分的训练和测试。具体而言 ,临床医生在时间顺序上指出,最接近测序的特征是特征,专家注销的亚型用作目标。对于最终验证 ,我们使用了先前发表的乳腺癌数据集22的1,489例患者的持有组 。与先前的治疗模型一样,我们使用了2,000个刺激输入,使用了2,000个刺激性输入,用于HER2和激素受体分类器 ,并根据需要进行填充。我们使用的是ADAMW优化器的批量大小为64,学习率为1×10-6,训练30个时期 ,没有热身的热量。
吸烟状况 。吸烟状况(以前或现在与从未有)是通过适用于给定患者的第一个可用临床医生评估的正则表达提取来从专用的吸烟或社会历史部分获得的。该算法是基于先前发表的247例NSCLC患者和先前注释的吸烟状态14创建的,该患者也扣留了MSK-BPC NSCLC队列中的患者的数据。该模型是根据MSK BPC NSCLC队列验证的 。
PDL1。PDL1状态(正定义为1%或更高)是通过应用于给定患者的第一个可用临床医生评估的正则表达提取获得的。该算法是基于先前发表的247例NSCLC患者和先前注释的吸烟状态14创建的,该患者也扣留了MSK BPC NSCLC队列中的患者的数据 。该模型是根据MSK BPC NSCLC队列验证的。
格里森评分。通过将前列腺活检或切除术的病理报告应用于病理报告中 ,获得了格里森评分(6-10) 。该算法是基于先前发表的451例前列腺癌患者和先前注释的Gleason Score56的迭代微调创建的,并在MSK BPC前列腺队列中扣留患者的数据。该模型是根据MSK BPC前列腺队列验证的。
MMR。通过应用于组织病理学报告的正则表达提取获得不匹配状态(熟练与缺乏) 。该算法是基于先前发表的224例CRC患者和先前注释的MMR状态57的人群创建的,该患者还扣留了MSK CRC队列中的患者的数据。该模型是根据MSK BPC CRC队列验证的。
计费代码注释指标 。我们试图评估结构化数据元素的准确性(即计费代码12) ,以恢复肿瘤位点信息,并将这种准确性与我们的NLP算法的准确性进行比较。由于计费代码的时机不一定与特定的放射学报告有关,因此我们在患者水平上汇总了标签 ,在患者肿瘤部位的癌症检测在患者病史的任何时候被认为是该部位的积极的。将患者级计费代码标签和NLP标签(如上所述的放射学印象)与金标准的策划BPC标签进行了比较,所有这些标签都在患者水平上汇总 。补充表2中提供了这些注释的患者级精度。
RSFS58使用预分配的超参数(N TROOES = 1,000,最小n分= 10,最小N样品 ,每片叶子= 15)训练,在上次随访时从队列进入的时间进行了死时间,在上次随访时进行了右审查。在探索性辅助分析中 ,进行了随机的高参数网格搜索,以进行评估20%的固定量以找到“最佳”超参数(n Tree范围200-2,000,最小n个n片范围5-20 ,最小N样品,每个叶子范围5-30,N搜索量为5–30 ,N搜索量= 100,三倍跨跨互式互动以进行超层均计选择);对最佳超参数训练的模型并未产生更好的结果(使用最佳分配的超参数与预分配的超参数相比,C-指数“改进”为-0.01) 。我们将所有变量包括在补充表6中 ,根据该表中的模式分组。
为了预测左截断和右审查时的死亡时间,我们使用了从以前的工作59,60使用RF(Random Forest)方法更新的OnCocast软件包(https://github.com/axelitomartin/oncocast)。简而言之,此方法将弹性的网络调查的COX比例危害模型拟合到数据,然后应用随机森林来估计Martingale残留物 。当对新数据测试模型时 ,将应用此校正项。我们通过交叉验证或在整个MSK-schord数据集中训练并验证了非MSK BPC数据集上的模型,以创建一个合奏学习模型。配置了500棵树,5个终端节点和50次运行的OnCocast型号 ,安装在训练集中。在所有迭代中都进行了测试集风险的预测 。使用每次迭代时的一致性概率指数评估模型性能。
我们微调了临床长期54模型,以输入CT胸部,腹部和骨盆(CAP)报告的全文报告 ,并在6个月内预测二进制OS,这是临床意义上有意义的端点和单个放射学报告可能有意义的预后的时间范围。我们将所有队列分为患者水平的培训和测试组,保留20%的队列或所有CT帽的患者 ,以在队列进入测试后的3个月内,以较小者为准 。在培训集中,所有患者的所有CT CAP报告均根据6个月内的生存状况注释;那些不足随访的人被排除在外。在该数据集中对临床长度大小进行了微调 ,使用64个批量的学习率为1×10-6,对20个时期进行了训练,并进行了两个时期的热身时期。
使用COX比例危害模型分析了基因组改变与转移时间的关联 。死亡被视为审查事件。在开始时间(采集样本时间;也就是说,可以确认给定肿瘤的最早时间)转移到给定的感兴趣部位的患者被排除在分析之外。在所有多变量分析中 ,将先前的治疗(任何与无)和阶段(I – III与IV)一起作为变量 。组织学亚型作为变量包括在内。
我们利用了两种验证群体的LUAD患者和肿瘤基因组分析:DFCI患者;和商业现实世界中数据集中的患者。DFCI队列的详细信息先前已发表1,61 。在商业数据集中,将NSCLC患者的福尔马林固定石蜡包裹的样品提交给了商业临床实验室改善改良修订的分子特征实验室(Caris Life Sciences,Phoenix ,AZ,AZ)。任何患有Caris肿瘤分子分析的患者都有资格纳入;患者的来源包括各种社区和学术环境,患者与MSK-Chord的患者不重叠。通过下一代测序 ,592个针对的面板或用于基因组特征的全异位测序,分析了总共29,422个具有腺癌组织学的NSCLC。在分子测试之前,通过使用手动显微解剖技术收集靶向组织来实现肿瘤富集 。对于NextSeq-sequested肿瘤 ,使用定制设计的SURESELECT XT分析来富集592个全基因靶标(Agilent Technologies,Santa Clara,CA)。对于Novaseq全异常序列的肿瘤 ,使用了一个杂种下拉面板,旨在在高覆盖范围和高读取深度下富含700多个临床相关的基因,并使用了另一个旨在丰富较低深度的> 20,000个基因的面板。添加了一个500-MEGABASE单核苷酸多态性主链面板(Agilent Technologies,Santa Clara ,CA),以帮助进行基因扩增和缺失测量和其他分析 。所有变体均以> 99%的置信度检测到,平均测序深度> 500 ,分析灵敏度为5%。该测试的敏感性可检测到大约10%的细胞群,这些细胞中所有外显子中含有突变的细胞,来自高阅读深度临床基因 ,而在20个外显子中,所有外显子中有99%,在20%中 ,其中99%000个全外部区域。确定的遗传变异是通过董事会认证的分子遗传学家来解释的,并根据美国医学遗传学和基因组学标准进行分类 。实际OS是从保险索赔数据中获得的,并从活检时间到上次联系时间。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
赞 (12)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 这项研究主要分析了肿瘤基因组测序患者的数据,并从两个部分重叠的来源完成了肿瘤注册表:MSK-IMPACT测序的患者(形成MSK-Chord的基础)和美国癌症研究协会的BPC...
文章不错《自动化现实世界数据集成改善癌症结果预测》内容很有帮助