蘋果的研究人員找到了一種新的多模態方法,可以快速訓練大型語言模型(LLMs),這可以使機器學習和「AI」類型系統更靈活且功能更強大。
蘋果新 AI 訓練方法
蘋果的研究人員構建了一個名為 MM1 的多模態模型,包含多達 300 億參數,由稠密模型和混合專家模型(MoE)變體組成。
這種模型不僅可以應用於視覺任務,還可以與 OpenAI GPT-4V、Google Gemini 等競爭。
混合數據訓練
蘋果在本週早些時候在研究網站 arxiv.org 上發布的一篇研究論文顯示,該公司使用了所謂的「細心混合」圖像標題、交錯的圖像文本和僅文本數據來訓練 LLMs。
視覺和語言數據的混合使模型,能夠處理智能圖像標題或推斷自然語言含義等任務。
圖像編碼器的重要性
在研究的過程中,發現圖像編碼器的選擇和處理的圖像分辨率對性能有著很大的影響,比視覺語言連接器的設計更重要。
多步推理能力
使用 300 億參數的 MM1 模型,發現其具有強大的上下文學習能力,可以在少量「思維鏈」提示下對多張圖像進行多步推理。
蘋果的 AI 發展
蘋果持續將「AI」技術融入現有技術中,CEO Tim Cook 最近承認公司每年花費 10 億美元進行相關研究。該公司預計在今年 6 月的 WWDC 上公佈一些關於其進展的公告。
隱私與安全
蘋果的興趣在於訓練神經網絡的多模型方法,以實現最先進的性能,並允許多步推理。
©iPhone News 愛瘋了表示,這表明蘋果公司已找到了一條快速提升機器學習能力,並賦予其先進「智慧」功能的道路。
● MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
發表留言