相比傳統大型語(yǔ)言模型(LLM),Claude 3.7 的獨特之處在于整合了快速本能反應與深思熟慮的推理能力,類(lèi)似于邁克爾·卡尼曼《思考快與慢》中描述的系統 1 和系統 2 思維。傳統 LLM 擅長(cháng)即時(shí)生成連貫文本,但在需要逐步推理的任務(wù)(如算術(shù)或復雜規劃)上表現有限。Anthropic 通過(guò)強化學(xué)習優(yōu)化 Claude 3.7,利用額外人類(lèi)數據訓練模型生成準確答案。研究產(chǎn)品負責人 Dianne Penn 指出,模型特別針對業(yè)務(wù)場(chǎng)景進(jìn)行了增強,涵蓋代碼編寫(xiě)與修復、計算機操作及復雜法律問(wèn)題處理。她強調:“我們在技術(shù)領(lǐng)域和長(cháng)時(shí)推理任務(wù)上實(shí)現了改進(jìn),以滿(mǎn)足客戶(hù)將模型應用于實(shí)戰的需求。”
Claude 3.7 在編碼能力上表現突出,特別是在需要逐步推理的任務(wù)中,超越 OpenAI 的 o1 模型,在 SWE-bench 等基準測試中取得領(lǐng)先成績(jì)。為進(jìn)一步支持開(kāi)發(fā)者,Anthropic 同步發(fā)布 Claude Code 工具,專(zhuān)為 AI 輔助編碼設計。Penn 表示:“模型已具備出色編碼能力,而在處理大型代碼庫等復雜規劃場(chǎng)景時(shí),額外推理功能尤為關(guān)鍵。”相比 OpenAI 的 o3 和谷歌的 Gemini Flash Thinking,用戶(hù)無(wú)需切換模型即可享受靈活推理體驗。