《iPhone News 愛瘋了》報導,蘋果公司最近發布了一篇震撼 AI 界的論文,揭示大型語言模型(LLM)在數學推理方面的重大缺陷。儘管這些 AI 模型在生成自然語言上表現卓越,但當面對數學問題時,尤其是問題中加入無關訊息時,它們的表現卻令人失望。
問題加入細節,LLM 無法應對
蘋果 AI 研究團隊在論文《Understanding the Limitations of Large Language Models in Mathematical Reasoning》中,透過一個關於採摘奇異果的問題展示了 LLM 的弱點。問題表面上很簡單:奧利弗在周五挑選了 44 個奇異果,周六挑選 58 個,周日他採摘了周五的兩倍。LLM 最初能夠正確回答這個問題,計算出奧利弗總共摘了多少個奇異果。
然而,當研究人員在問題中加入無關的細節,例如「其中 5 個奇異果比平均小」時,模型的表現立刻崩潰,無法提供正確答案。這讓我們質疑,LLM 是否真的理解問題,還是只是在模仿訓練數據中的模式。
修改問題,成功率驟降
研究團隊進一步修改了數百個類似的問題,結果發現,無論如何改變,LLM 在面對這些經過微調的數學問題時,其正確率幾乎都大幅降低。這證明了 LLM 並非依賴真正的邏輯推理,而是根據訓練資料中的模式進行預測。
這一發現給 AI 研究領域帶來了深遠的影響。雖然 LLM 在許多應用場景中已經展現出非凡的能力,但當涉及到真正需要邏輯推理的問題時,它們的表現依然有限。
LLM 的未來發展挑戰
蘋果的這項研究無疑指出了當前 LLM 發展中的一大缺陷,也提醒我們,即便在 AI 技術迅速進步的今天,推理能力依然是需要重點突破的領域。未來的 AI 模型如何解決這一挑戰,將是影響人工智慧技術未來發展的關鍵。
《iPhone News 愛瘋了》表示,LLM 在數學推理方面的能力不足,是否會影響到它在其他應用領域的表現?你認為 AI 真的有可能達到人類邏輯推理的水準嗎?
發表留言