蘋果公司的兩篇論文宣示了在人工智慧領域中的重大突破。其中一篇介紹了能夠在超越 DRAM 容量的裝置上運行 LLM(大型語言模型)的全新方法。這項新研究將支援容量有限的裝置運行比原先大兩倍的 LLM,並將 GPU 的推理速度提升了數十倍。媒體預測,蘋果有望將生成式人工智慧整合至 iOS 18 中,甚至可能提前實現。
蘋果公司的突破性研究
其中一項高效的語言模型推理新技術,將讓 iPhone、iPad 等小型記憶體設備能夠流暢運行複雜的 AI 系統。
解決技術挑戰,實現高效推理
蘋果的研究人員在其中一篇論文中成功解決了在記憶體有限的裝置上部署大型語言模型(LLM)的關鍵挑戰。
眾所周知, 像 GPT-4 這樣的大型模型包含了龐大的參數,若直接在消費性硬體上運行,將面臨極高的推理成本。
透過提高記憶體使用效率,加速GPU推理速度
據悉,蘋果的技術人員最大程度地減少了在推理過程中從快閃記憶體到記憶體的資料傳輸。透過一系列方法,將推理延遲提高了 4-5 倍,在 GPU 上更是提速 20-25 倍。
這項突破對於在資源有限的環境中部署先進的 LLM 尤為重要,極大提高了適用性和可近性。
拓展應用範圍,蘋果AI將深度整合
對蘋果用戶而言,這些優化可能很快就允許複雜的人工智慧助理和聊天機器人在 iPhone、iPad 和其他行動裝置上流暢運行。
透過大幅提高記憶體使用效率,這項新研究支援有限容量的裝置運行比原先大兩倍的 LLM,同時提升了 GPU 的推理速度數十倍。
結語
論文指出,LLM 所需的運算量和記憶體需求對於 DRAM 容量是一大挑戰,該論文建構了一個以快閃記憶體為基礎的推理成本模型,將在兩個關鍵領域進行最佳化:減少從快閃記憶體傳輸的資料量,以及更流暢地讀取資料塊。
©iPhone News 愛瘋了表示,這意味著,這項突破性研究擴大了 LLM 的適用範圍和可行性,蘋果將生成式人工智慧整合至 iOS 18 的計畫或將提前實現。