本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zlan/202506-1099.html
在本节中,我们评估了模型崩溃对语言模型的影响 。我们在补充材料中涵盖了更多可解释的机器学习模型(VAE和GMM)。代码在参考文献中公开可用。13。
模型崩溃在机器学习模型的各个家族中都是普遍的 。但是 ,如果通常从头开始对GMM和VAE等小型型号进行训练,LLMS则不同。它们从头开始训练非常昂贵,以至于通常使用预先训练的模型(例如Bert4,Roberta5或GPT-2)(参考文献2)初始化它们 ,这些模型在大型文本语料库中进行了培训。然后,它们对各种下游任务进行微调14 。
在这里,我们探索语言模型与其他模型生成的数据进行顺序微调时会发生什么。我们可以轻松地复制本文中涵盖的所有实验 ,并在非修补设置中使用较大的语言模型来证明模型崩溃。鉴于培训单个中等大型模型是美国终生二氧化碳价值的两倍(参考文献15),我们选择不进行这样的实验,而是专注于更现实的概念验证 。请注意 ,即使本文中描述的语言实验也花了数周的时间。我们评估了训练语言模型的最常见环境,这是一个微调设置,每个训练周期都从具有最新数据的预训练模型开始。这里的数据来自另一个微调的预训练模型 。由于训练仅限于生产与原始预训练模型接近的模型 ,并且模型产生的数据点通常会产生很小的梯度,因此这里的期望可能是模型只能在微调后适度改变。我们微调了Meta通过拥抱Face提供的OPT-125M因果语言模型。
我们在Wikitext2 DataSet16上微调它 。对于训练有素的模型,我们使用五向光束搜索。我们阻止训练序列为64个令牌。然后 ,对于训练集中的每个令牌序列,我们要求模型预测下一个64个令牌。我们浏览所有原始的培训数据集,并产生相同大小的人工数据集 。因为我们浏览了所有原始数据集并预测所有块,所以如果模型有0个错误 ,则将产生原始的Wikitext2数据集。每一代的培训始于原始培训数据的生成。每个实验进行五次运行,结果显示为五个单独的运行,具有不同的随机种子 。用真实的Wikitext2数据微调的原始模型从115的零射击基线获得了34个平均困惑 ,也就是说,它成功地学习了任务。最后,为了尽可能现实 ,我们使用原始任务上最佳的模型,使用原始Wikitext2验证集评估,作为后代的基本模型 ,这意味着 - 在实践中,可以更加明显地观察到的模型崩溃。在这里,我们考虑两个不同的设置:
这两种训练制度都导致模型中的性能降低 ,但是我们确实发现使用生成数据学习是可能的,并且模型可以成功地学习(某些)基础任务 。特别是,从图1及其在补充材料中的3D版本中,我们看到模型崩溃发生了 ,因为在世代相传的样品的密度开始积累。反过来,这几代人可能会类似地崩溃到三角洲函数。
重要的是要注意,观察到的行为与“理论直觉 ”部分中建立的一般直觉一致 。确切地说 ,在所有实验中,世代学习仅在有限的(通常很少)的世代上进行,而“理论直觉”部分的主张大多以世代的限制为Infinity。但是 ,从补充材料中的VAE和GMM的实验中可以看出,收敛到三角洲功能和这种收敛的特定速率与所考虑的问题的细节高度相关,即使在少量步骤之后 ,也可能发生完全崩溃。理论上在补充材料中进一步说明了这一点,其中即使经过几代人,也可能会出现与原始模型的差异 。
图1B ,左侧的C显示了由不同世代生成的单个数据点困惑的直方图,这是由使用Real Wikitext2训练数据开发的第一个模型评估的。在这里,在几代人中,模型倾向于产生更多原始模型会产生较高可能性的序列。观察到的效果类似于补充材料中VAE和GMM所述的效果 ,其中(几代人)模型开始生成原始模型较高概率产生的样品。同时,我们发现生成的数据具有更长的尾巴,这表明原始模型永远不会产生某些数据 ,这些数据是由于使用生成数据而累积的错误 。
由模型崩溃影响的OPT-125M模型的文本输出的示例 - 代替了几代人的降级,为此,每个新一代都经过上一代生产的数据培训。
我们发现 ,在实验中,语言模型生成的数据最终包含大量重复短语,如示例1所示。在几乎所有文本生成模型17,18中都观察到了重复问题17,18 ,并且为了将其排除为模型崩溃的原因,我们进一步鼓励模型明确地提供非重复序列的数值实验 。我们发现,这会导致模型产生较低的分数连续性以避免使用重复序列 ,从而导致随后的模型的性能更糟。模型的困惑度在整个世代转向了更可能的令牌序列,该序列是使用对原始真实数据分布训练的模型进行了测量的。补充材料中提供了进一步的插图 。特别是,对LLM实验执行此操作会导致与原始相比的困惑两倍。模型仍然容易受到模型崩溃的影响,即使不是更多。
所描述的过程表明 ,语言模型的微调不能遏制模型崩溃的效果,而被微调的模型也很脆弱 。我们发现,在几代人中 ,模型倾向于从原始数据中产生更可能的序列,并开始引入自己的不可能的序列,即错误。
赞 (10)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 在本节中,我们评估了模型崩溃对语言模型的影响。我们在补充材料中涵盖了更多可解释的机器学习模型(VAE和GMM)。代码在参考文献中公开可用。13。 模型崩溃在机器学...
文章不错《AI模型在经过递归生成的数据进行培训时崩溃》内容很有帮助