過(guò)去幾年,隨著(zhù)人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著(zhù)這樣的信條:模型訓練得越多,最終效果就越好。在這項新研究中,研究團隊發(fā)現了一些證據表明,語(yǔ)言模型訓練可能存在收益遞減點(diǎn)。
研究人員在訓練兩個(gè)不同版本的 LLM OLMo-1B 模型并測試其回報時(shí)得出了這一結論。在一個(gè)場(chǎng)景下,他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓練,而在另一種場(chǎng)景下,他們使用了 3 萬(wàn)億個(gè) token。然后,他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準測試來(lái)比較這兩個(gè)場(chǎng)景。結果發(fā)現,使用更多 token 訓練的模型在測試中的表現實(shí)際上更差,最多差了 3%。
他們對自己的研究結果感到驚訝,并進(jìn)行了更多測試,仍然發(fā)現了類(lèi)似的結果。這表明,在某個(gè)臨界點(diǎn)上,更多的訓練反而會(huì )降低模型的“智能”。研究團隊稱(chēng)之為“災難性的過(guò)度訓練”,并認為這是他們所謂的“漸進(jìn)性敏感性”造成的。
他們進(jìn)一步指出,隨著(zhù)令牌數量的增加,模型變得越脆弱,這意味著(zhù)微調(可以被視為增加噪音)開(kāi)始逆轉在壓力點(diǎn)之前看到的改進(jìn)收益。
為了驗證他們的理論,他們在一些模型中添加了高斯噪聲,結果發(fā)現這樣做會(huì )導致與之前觀(guān)察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認為,在此之后,任何進(jìn)一步的訓練都會(huì )降低模型的穩定性,使其更難以以適合特定應用的方式進(jìn)行調整。
研究人員最后建議,展望未來(lái),LLM 模型的開(kāi)發(fā)人員可能必須估計多少訓練才足夠,或者找到其他類(lèi)型的方法,以便進(jìn)行具有更遠拐點(diǎn)的額外訓練。