《iPhone News 愛瘋了》報導,蘋果公司宣布推出新一代多模態 AI 大模型 MM1.5,該模型具備強大的影像辨識與自然語言推理能力,將大幅提升各種視覺和語言任務的表現。
隨著人工智慧技術的快速發展,蘋果再次引領潮流,為其多模態大模型家族加入了這個具備前所未有功能的全新成員。
MM1.5 模型的多參數選擇與優化
MM1.5 基於蘋果前代模型 MM1 的架構,提供從 10 億到 300 億參數的不同規模,這使得它能夠適應從小型到大型數據集的各種任務需求。
無論是小規模的 10 億參數版本,還是更為龐大的 300 億參數版本,該模型在多種任務上都展示了極高的效能,尤其是在影像辨識與自然語言推理的應用場景中。
研究團隊在模型的預訓練階段引入了更先進的數據混合策略,特別針對多文本圖像理解、視覺引用與定位(Grounding)進行優化。
根據最新的研究,團隊還在模型中加入了 OCR(光學字符識別)資料和合成圖像描述資料,進一步強化了 MM1.5 在處理大量文字圖像方面的能力。
視覺與自然語言推理的突破
MM1.5 不僅能夠進行精確的影像辨識,還能輕鬆應對複雜的自然語言推理任務,這讓它在視覺和語言結合的應用上表現出色。
通過持續的預訓練和監督式微調,研究人員能夠更好地理解不同數據類型對模型表現的影響,並進一步優化資料混合方式。
根據蘋果團隊的測試結果,即使是參數規模較小的 10 億和 30 億版本,也能在多項任務中實現優秀表現,這讓 MM1.5 成為適合廣泛應用的高效工具。
專為視訊與 UI 理解的變體模型
蘋果此次還推出了兩個特別針對視訊和行動裝置使用者介面(UI)理解的變體模型,分別是 MM1.5-Video 和 MM1.5-UI。
MM1.5-Video 模型在視訊內容理解方面展示了卓越的能力,而 MM1.5-UI 則為 iOS 系統提供了一個 AI 後盾,能夠理解螢幕上的元素,並透過與使用者的互動完成各種任務。
這些變體模型的推出預示著蘋果對 AI 技術的長遠規劃,特別是在強化行動裝置使用者體驗方面的應用。MM1.5-UI 未來甚至有望成為 iOS 背後的智慧 AI,幫助處理各種視覺與互動需求。
標準與未來的發展方向
儘管 MM1.5 已經在多項基準測試中取得了不俗的成績,蘋果團隊並未止步於此。他們計劃進一步融合文本、圖像和用戶互動數據,設計更複雜的架構,強化對行動設備 UI 的理解能力。
《iPhone News 愛瘋了》表示,這不僅是蘋果 AI 的一大步,更將鞏固其在多模態 AI 領域的領先地位。