蘋果公司最新的人工智慧技術帶來了一個令人振奮的消息:Siri 將會變得更加智慧!最近,蘋果公司的 AI 研究團隊宣布了一項突破性的創新,他們成功開發了一款全新的人工智慧系統。
這款系統能夠「看懂」手機螢幕上的內容,並且能夠根據使用者的指令以及對話的上下文,以更加自然流暢的方式與使用者進行互動。
ReALM系統:智慧引擎的誕生
這款令人矚目的系統被命名為 ReALM (Reference Resolution As Language Modeling),它利用了大型語言模型的優勢,將複雜的螢幕視覺元素轉換為純粹的語言問題。
這一創新的轉換使得 ReALM 在性能上大幅提升,使得 Siri 等語音助理在理解用戶指令以及螢幕內容時更加靈活準確。
ReALM 提升對話助理能力
ReALM 系統的一大突破在於它能夠重新構建螢幕上的內容,通過分析螢幕上的訊息以及其位置資訊,生成文字描述。
這一創新技術的結合,使得在處理內容指向等任務時,ReALM 系統表現優異,超越了以往的技術,甚至超越了 GPT-4。
ReALM 實際應用與挑戰
這項研究不僅突顯了專注於語言模型的潛力,更展示了蘋果公司對於技術持續投入的決心。然而,自動化解析螢幕內容仍然面臨著一些挑戰,特別是在處理更加複雜的視覺內容時。
儘管如此,ReALM 系統在參照解析任務上取得了顯著的進步,為未來智慧對話助理的發展指明了一條光明的道路。