蘋果的一篇研究論文描述了公司如何開發 Ferret-UI，這是一個特別設計來理解應用程式畫面的生成式 AI 系統，專門用於理解 iPhone 手機螢幕畫面的 MLLM。

大型語言模型（LLM）是支持 ChatGPT 等系統的核心。這些模型的訓練材料主要來自文本，大多數是從網站中提取的。

MLLM（或多模型大型語言模型）旨在擴展 AI 系統理解非文本訊息的能力，包括圖像、影片和音頻。

這些是蘋果研究人員認為他們已經解決的問題，他們稱之為 Ferret-UI 的 MLLM 系統（UI 代表用戶界面）。

論文描述了他們取得的成就，而不是它可能如何使用。這在許多研究論文中很典型，而且可能有幾個原因。

第一，它可能是評估使用者介面有效性的有用工具。開發人員可以創建應用程式的草稿版本，然後讓 Ferret-UI 確定其理解和使用的難易程度。這可能比人類可用性測試更快、更便宜。

第二，它可以有無障礙應用程式。例如，它不是一個簡單的螢幕閱讀器向盲人閱讀 iPhone 螢幕上的所有內容，而是總結螢幕顯示的內容，並列出可用的選項。

然後，用戶可以告訴 iOS 他們想要做什麼，並讓系統為他們做。

蘋果提供了一個範例，其中 Ferret-UI 呈現一個包含播客節目的螢幕。該系統的輸出是：“該螢幕用於播客應用程式，用戶可以在其中瀏覽和播放新的、著名的播客，並可以選擇播放、下載和搜尋特定播客。”

蘋果教導 AI 系統理解應用程式畫面 – 推動進階 Siri