過(guò)度訓練大型語(yǔ)言模型可能會(huì )使它們更難進(jìn)行微調

2025-04-26 10:57  瀏覽:  

來(lái)自美國卡內基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的人工智能研究小組發(fā)現,如果大型語(yǔ)言模型過(guò)度訓練,可能會(huì )使其更難進(jìn)行微調。該小組在arXiv預印本服務(wù)器上發(fā)表的論文比較了不同訓練量對單個(gè)法學(xué)碩士(LLM)的影響。
 

過(guò)去幾年,隨著(zhù)人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著(zhù)這樣的信條:模型訓練得越多,最終效果就越好。在這項新研究中,研究團隊發(fā)現了一些證據表明,語(yǔ)言模型訓練可能存在收益遞減點(diǎn)。

研究人員在訓練兩個(gè)不同版本的 LLM OLMo-1B 模型并測試其回報時(shí)得出了這一結論。在一個(gè)場(chǎng)景下,他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓練,而在另一種場(chǎng)景下,他們使用了 3 萬(wàn)億個(gè) token。然后,他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準測試來(lái)比較這兩個(gè)場(chǎng)景。結果發(fā)現,使用更多 token 訓練的模型在測試中的表現實(shí)際上更差,最多差了 3%。

他們對自己的研究結果感到驚訝,并進(jìn)行了更多測試,仍然發(fā)現了類(lèi)似的結果。這表明,在某個(gè)臨界點(diǎn)上,更多的訓練反而會(huì )降低模型的“智能”。研究團隊稱(chēng)之為“災難性的過(guò)度訓練”,并認為這是他們所謂的“漸進(jìn)性敏感性”造成的。

他們進(jìn)一步指出,隨著(zhù)令牌數量的增加,模型變得越脆弱,這意味著(zhù)微調(可以被視為增加噪音)開(kāi)始逆轉在壓力點(diǎn)之前看到的改進(jìn)收益。

為了驗證他們的理論,他們在一些模型中添加了高斯噪聲,結果發(fā)現這樣做會(huì )導致與之前觀(guān)察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認為,在此之后,任何進(jìn)一步的訓練都會(huì )降低模型的穩定性,使其更難以以適合特定應用的方式進(jìn)行調整。

研究人員最后建議,展望未來(lái),LLM 模型的開(kāi)發(fā)人員可能必須估計多少訓練才足夠,或者找到其他類(lèi)型的方法,以便進(jìn)行具有更遠拐點(diǎn)的額外訓練。

免責聲明:本網(wǎng)轉載自合作媒體、機構或其他網(wǎng)站的信息,登載此文出于傳遞更多信息之目的,并不意味著(zhù)贊同其觀(guān)點(diǎn)或證實(shí)其內容的真實(shí)性。本網(wǎng)所有信息僅供參考,不做交易和服務(wù)的根據。本網(wǎng)內容如有侵權或其它問(wèn)題請及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。
相關(guān)推薦
意法半導體推出新一代嵌入汽車(chē)微控制器的可擴展存儲器

意法半導體推出新一代嵌入汽車(chē)微控制器的可擴展存儲器

意法半導體(STMicroelectronics)近日發(fā)布搭載xMemory技術(shù)的Stellar系列汽車(chē)微控制器,旨在簡(jiǎn)化軟件定義汽車(chē)(SDV)和電動(dòng)汽車(chē)平臺的開(kāi)發(fā)流程。該技術(shù)通過(guò)可擴展內存設計,解決了傳統方案需要管理多款內存配置設備的難題。首款采用xMemory的Stellar P6 MCU將于2025年下半年量產(chǎn),專(zhuān)為電動(dòng)汽車(chē)動(dòng)力系統設計。該技術(shù)基于意法半導體領(lǐng)先的28nm嵌入式相變存儲器(ePCM)技術(shù),具有業(yè)界最小的非易失性存儲單元尺寸,內存密度達其他技術(shù)的兩倍。公司汽車(chē)...
俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯數字發(fā)展部部長(cháng)馬克蘇特·沙達耶夫近日表示,政府正考慮為人工智能技術(shù)公司提供電網(wǎng)連接和電力價(jià)格方面的優(yōu)惠政策。這一舉措旨在降低AI企業(yè)的運營(yíng)成本,促進(jìn)本國人工智能產(chǎn)業(yè)發(fā)展。沙達耶夫在數據融合論壇上指出:"當前條件下,電力優(yōu)惠是最可行的支持方式。"由于A(yíng)I技術(shù)研發(fā)需要大量計算資源和專(zhuān)業(yè)硬件投入,在高利率環(huán)境下企業(yè)面臨較大資金壓力。2023年11月,俄羅斯總理米舒斯京已要求多個(gè)部門(mén)研究為新建數據中心提供電力優(yōu)惠的方案。...
全球首場(chǎng)機器人跑馬拉松

全球首場(chǎng)機器人跑馬拉松

4月18日上午,全球首場(chǎng)人形機器人半程馬拉松公布了參賽選手名單。在明日上午7:30舉行的半程馬拉松中,共有21支機器人隊伍會(huì )在北京亦莊南海子公園一期南門(mén)起跑,這些參賽隊伍分別來(lái)自國家隊、民營(yíng)企業(yè)和學(xué)??蒲袌F隊。從速度上來(lái)看,國家隊一馬當先。由北京人形機器人創(chuàng )新中心研發(fā)的天工Ultra身高一米八,是參賽選手中身高最高的機器人,體重52公斤,實(shí)測平均時(shí)速可以達到10km/h,最高奔跑速度已經(jīng)達到了12km/h。在此前的訓練視頻中,天工Ultra已經(jīng)穿...
瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市,市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市,市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB 4月17日宣布,決定對其機器人業(yè)務(wù)單元實(shí)施100%分拆,計劃于2026年第二季度完成,并將推動(dòng)該業(yè)務(wù)作為獨立上市公司啟動(dòng)上市交易。ABB的機器人業(yè)務(wù)在全球市場(chǎng)排名第二,僅次于日本發(fā)那科,在機器人四大家族中領(lǐng)先于日本安川電機和德國庫卡。2024年,該部門(mén)的銷(xiāo)售收入達23億美元,約占ABB集團總收入的7%,運營(yíng)息稅攤銷(xiāo)前利潤率為12.1%。ABB機器人業(yè)務(wù)單元擁有約7000名員工。ABB稱(chēng),相關(guān)提案如獲股東批準,拆分計劃將通過(guò)股份分配的方式進(jìn)行...
英偉達CEO黃仁勛:堅定不移服務(wù)中國市場(chǎng)

英偉達CEO黃仁勛:堅定不移服務(wù)中國市場(chǎng)

中國貿促會(huì )會(huì )長(cháng) 任鴻斌:兩天前,美國政府決定對英偉達對華出口的H20芯片,實(shí)施無(wú)限期出口管制,您如何評估這一決定的影響?英偉達首席執行官 黃仁勛:美國政府加強芯片出口管制已對英偉達業(yè)務(wù)產(chǎn)生重大影響,當前全球正掀起一場(chǎng)激烈的人工智能競賽,作為當代最具變革性的核心技術(shù),AI對各行業(yè)發(fā)展的推動(dòng)前景廣闊,世界各國都在加速推進(jìn)技術(shù)應用,研發(fā)創(chuàng )新與能力提升,這必將對包括中國在內的全球市場(chǎng)格局產(chǎn)生深遠影響。作為深耕中國市場(chǎng)三十載的企業(yè),我們與...

推薦閱讀

熱文

Copyright © 能源界
国产精品欧美一区喷水_婷婷久久综合九色综合_精品国产高清在线拍_美女作爱全过程免费观看国产