蘋果在推出全新開源設定語言 Pkl:支援 JSON、XML 和 YAML 後。蘋果的研究人員又推出了一個新的開源 AI 模型,能夠根據使用者的自然語言指令來編輯圖片。被稱為「MGIE」,全名為 MLLM-Guided Image Editing,它使用多模態大型語言模型(MLLMs)來解釋使用者的請求並執行像素級的操作。
全局圖片增強
這個模型能夠編輯圖片的各個方面。全局照片增強可以包括亮度、對比度或銳度,或應用藝術效果如素描。
局部編輯可以修改圖片中特定區域或對象的形狀、大小、顏色或質地,而類似 Photoshop 的修改可以包括裁剪、調整大小、旋轉、添加濾鏡,甚至更改背景和混合圖片。
基於常識的編輯
對於一張 Pizza 圖片輸入,可能是「讓它看起來更健康」。使用常識推理,模型可以添加蔬菜配料,如番茄和香草。
全局優化輸入請求可能形式為「增加對比度以模擬更多光線」,而類似 Photoshop 的修改可以通過要求模型從照片的背景中移除人物,將焦點轉移到主題的面部表情。
蘋果與加州大學的研究人員合作創建了 MGIE,該模型在 2024 年的國際學習表示研討會(ICLR)上發表了一篇論文。
該模型在 GitHub 上可用,包括代碼、數據和預先訓練的模型。
這是蘋果在人工智慧研究方面的第二次突破,僅在過去的兩個月內。
去年十二月底,蘋果透露,他們在 iPhone 和其他內存有限的蘋果設備上部署大型語言模型(LLMs)方面取得了進展,並發明了一種創新的快閃記憶體利用技術。
Apple GPT競爭對手
在過去的幾個月裡,蘋果一直在測試一個可以與 ChatGPT 競爭的「Apple GPT」競爭對手。
據彭博社的 Mark Gurman 報導,人工智慧工作是蘋果的重點,公司正在設計一個大型語言模型的「Ajax」框架。
據 The Information 和分析師 Jeff Pu 稱,蘋果將在 2024 年底左右的 iPhone 和 iPad 上提供某種生成式人工智慧功能,那時將推出 iOS 18。
據 Gurman 稱,iOS 18 將包括一個增強版的 Siri,具有類似 ChatGPT 的生成式人工智慧功能,有望成為 iPhone 歷史上「最大」的軟體更新。