《iPhone News 愛瘋了》報導，蘋果公司宣布推出新一代多模態 AI 大模型 MM1.5，該模型具備強大的影像辨識與自然語言推理能力，將大幅提升各種視覺和語言任務的表現。

隨著人工智慧技術的快速發展，蘋果再次引領潮流，為其多模態大模型家族加入了這個具備前所未有功能的全新成員。

MM1.5 模型的多參數選擇與優化

MM1.5 基於蘋果前代模型 MM1 的架構，提供從 10 億到 300 億參數的不同規模，這使得它能夠適應從小型到大型數據集的各種任務需求。

無論是小規模的 10 億參數版本，還是更為龐大的 300 億參數版本，該模型在多種任務上都展示了極高的效能，尤其是在影像辨識與自然語言推理的應用場景中。

研究團隊在模型的預訓練階段引入了更先進的數據混合策略，特別針對多文本圖像理解、視覺引用與定位（Grounding）進行優化。

根據最新的研究，團隊還在模型中加入了 OCR（光學字符識別）資料和合成圖像描述資料，進一步強化了 MM1.5 在處理大量文字圖像方面的能力。

視覺與自然語言推理的突破

MM1.5 不僅能夠進行精確的影像辨識，還能輕鬆應對複雜的自然語言推理任務，這讓它在視覺和語言結合的應用上表現出色。

通過持續的預訓練和監督式微調，研究人員能夠更好地理解不同數據類型對模型表現的影響，並進一步優化資料混合方式。

根據蘋果團隊的測試結果，即使是參數規模較小的 10 億和 30 億版本，也能在多項任務中實現優秀表現，這讓 MM1.5 成為適合廣泛應用的高效工具。

蘋果此次還推出了兩個特別針對視訊和行動裝置使用者介面（UI）理解的變體模型，分別是 MM1.5-Video 和 MM1.5-UI。

MM1.5-Video 模型在視訊內容理解方面展示了卓越的能力，而 MM1.5-UI 則為 iOS 系統提供了一個 AI 後盾，能夠理解螢幕上的元素，並透過與使用者的互動完成各種任務。

這些變體模型的推出預示著蘋果對 AI 技術的長遠規劃，特別是在強化行動裝置使用者體驗方面的應用。MM1.5-UI 未來甚至有望成為 iOS 背後的智慧 AI，幫助處理各種視覺與互動需求。

儘管 MM1.5 已經在多項基準測試中取得了不俗的成績，蘋果團隊並未止步於此。他們計劃進一步融合文本、圖像和用戶互動數據，設計更複雜的架構，強化對行動設備 UI 的理解能力。

《iPhone News 愛瘋了》表示，這不僅是蘋果 AI 的一大步，更將鞏固其在多模態 AI 領域的領先地位。