過(guò)度訓練大型語(yǔ)言模型可能會(huì )使它們更難進(jìn)行微調

2025-04-26 10:57 瀏覽：

來(lái)自美國卡內基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的人工智能研究小組發(fā)現，如果大型語(yǔ)言模型過(guò)度訓練，可能會(huì )使其更難進(jìn)行微調。該小組在arXiv預印本服務(wù)器上發(fā)表的論文比較了不同訓練量對單個(gè)法學(xué)碩士(LLM)的影響。

過(guò)去幾年，隨著(zhù)人工智能研究人員不斷提升產(chǎn)品性能，使其更加“智能”，許多人都秉持著(zhù)這樣的信條：模型訓練得越多，最終效果就越好。在這項新研究中，研究團隊發(fā)現了一些證據表明，語(yǔ)言模型訓練可能存在收益遞減點(diǎn)。

研究人員在訓練兩個(gè)不同版本的 LLM OLMo-1B 模型并測試其回報時(shí)得出了這一結論。在一個(gè)場(chǎng)景下，他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓練，而在另一種場(chǎng)景下，他們使用了 3 萬(wàn)億個(gè) token。然后，他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準測試來(lái)比較這兩個(gè)場(chǎng)景。結果發(fā)現，使用更多 token 訓練的模型在測試中的表現實(shí)際上更差，最多差了 3%。

他們對自己的研究結果感到驚訝，并進(jìn)行了更多測試，仍然發(fā)現了類(lèi)似的結果。這表明，在某個(gè)臨界點(diǎn)上，更多的訓練反而會(huì )降低模型的“智能”。研究團隊稱(chēng)之為“災難性的過(guò)度訓練”，并認為這是他們所謂的“漸進(jìn)性敏感性”造成的。

他們進(jìn)一步指出，隨著(zhù)令牌數量的增加，模型變得越脆弱，這意味著(zhù)微調(可以被視為增加噪音)開(kāi)始逆轉在壓力點(diǎn)之前看到的改進(jìn)收益。

為了驗證他們的理論，他們在一些模型中添加了高斯噪聲，結果發(fā)現這樣做會(huì )導致與之前觀(guān)察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認為，在此之后，任何進(jìn)一步的訓練都會(huì )降低模型的穩定性，使其更難以以適合特定應用的方式進(jìn)行調整。

研究人員最后建議，展望未來(lái)，LLM 模型的開(kāi)發(fā)人員可能必須估計多少訓練才足夠，或者找到其他類(lèi)型的方法，以便進(jìn)行具有更遠拐點(diǎn)的額外訓練。

語(yǔ)言模型

信息通信美國

免責聲明：本網(wǎng)轉載自合作媒體、機構或其他網(wǎng)站的信息，登載此文出于傳遞更多信息之目的，并不意味著(zhù)贊同其觀(guān)點(diǎn)或證實(shí)其內容的真實(shí)性。本網(wǎng)所有信息僅供參考，不做交易和服務(wù)的根據。本網(wǎng)內容如有侵權或其它問(wèn)題請及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。

相關(guān)推薦

意法半導體推出新一代嵌入汽車(chē)微控制器的可擴展存儲器

意法半導體推出新一代嵌入汽車(chē)微控制器的可擴展存儲器

意法半導體(STMicroelectronics)近日發(fā)布搭載xMemory技術(shù)的Stellar系列汽車(chē)微控制器，旨在簡(jiǎn)化軟件定義汽車(chē)(SDV)和電動(dòng)汽車(chē)平臺的開(kāi)發(fā)流程。該技術(shù)通過(guò)可擴展內存設計，解決了傳統方案需要管理多款內存配置設備的難題。首款采用xMemory的Stellar P6 MCU將于2025年下半年量產(chǎn)，專(zhuān)為電動(dòng)汽車(chē)動(dòng)力系統設計。該技術(shù)基于意法半導體領(lǐng)先的28nm嵌入式相變存儲器(ePCM)技術(shù)，具有業(yè)界最小的非易失性存儲單元尺寸，內存密度達其他技術(shù)的兩倍。公司汽車(chē)...

項目信息國際信息

04-18

俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯數字發(fā)展部部長(cháng)馬克蘇特·沙達耶夫近日表示，政府正考慮為人工智能技術(shù)公司提供電網(wǎng)連接和電力價(jià)格方面的優(yōu)惠政策。這一舉措旨在降低AI企業(yè)的運營(yíng)成本，促進(jìn)本國人工智能產(chǎn)業(yè)發(fā)展。沙達耶夫在數據融合論壇上指出："當前條件下，電力優(yōu)惠是最可行的支持方式。"由于A(yíng)I技術(shù)研發(fā)需要大量計算資源和專(zhuān)業(yè)硬件投入，在高利率環(huán)境下企業(yè)面臨較大資金壓力。2023年11月，俄羅斯總理米舒斯京已要求多個(gè)部門(mén)研究為新建數據中心提供電力優(yōu)惠的方案。...

項目信息國際信息

04-18

全球首場(chǎng)機器人跑馬拉松

全球首場(chǎng)機器人跑馬拉松

4月18日上午，全球首場(chǎng)人形機器人半程馬拉松公布了參賽選手名單。在明日上午7:30舉行的半程馬拉松中，共有21支機器人隊伍會(huì )在北京亦莊南海子公園一期南門(mén)起跑，這些參賽隊伍分別來(lái)自國家隊、民營(yíng)企業(yè)和學(xué)?？蒲袌F隊。從速度上來(lái)看，國家隊一馬當先。由北京人形機器人創(chuàng )新中心研發(fā)的天工Ultra身高一米八，是參賽選手中身高最高的機器人，體重52公斤，實(shí)測平均時(shí)速可以達到10km/h，最高奔跑速度已經(jīng)達到了12km/h。在此前的訓練視頻中，天工Ultra已經(jīng)穿...

項目信息國內信息

04-18

瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市，市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市，市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB 4月17日宣布，決定對其機器人業(yè)務(wù)單元實(shí)施100%分拆，計劃于2026年第二季度完成，并將推動(dòng)該業(yè)務(wù)作為獨立上市公司啟動(dòng)上市交易。ABB的機器人業(yè)務(wù)在全球市場(chǎng)排名第二，僅次于日本發(fā)那科，在機器人四大家族中領(lǐng)先于日本安川電機和德國庫卡。2024年，該部門(mén)的銷(xiāo)售收入達23億美元，約占ABB集團總收入的7%，運營(yíng)息稅攤銷(xiāo)前利潤率為12.1%。ABB機器人業(yè)務(wù)單元擁有約7000名員工。ABB稱(chēng)，相關(guān)提案如獲股東批準，拆分計劃將通過(guò)股份分配的方式進(jìn)行...

項目信息國際信息

04-18

英偉達CEO黃仁勛：堅定不移服務(wù)中國市場(chǎng)

英偉達CEO黃仁勛：堅定不移服務(wù)中國市場(chǎng)

中國貿促會(huì )會(huì )長(cháng) 任鴻斌：兩天前，美國政府決定對英偉達對華出口的H20芯片，實(shí)施無(wú)限期出口管制，您如何評估這一決定的影響?英偉達首席執行官黃仁勛：美國政府加強芯片出口管制已對英偉達業(yè)務(wù)產(chǎn)生重大影響，當前全球正掀起一場(chǎng)激烈的人工智能競賽，作為當代最具變革性的核心技術(shù)，AI對各行業(yè)發(fā)展的推動(dòng)前景廣闊，世界各國都在加速推進(jìn)技術(shù)應用，研發(fā)創(chuàng )新與能力提升，這必將對包括中國在內的全球市場(chǎng)格局產(chǎn)生深遠影響。作為深耕中國市場(chǎng)三十載的企業(yè)，我們與...

項目信息國際信息

04-18

推薦閱讀

熱文

一天一周一月

Copyright © 能源界

国产精品欧美一区喷水_婷婷久久综合九色综合_精品国产高清在线拍_美女作爱全过程免费观看国产