蘋果 AI 突破:Siri 能「理解」螢幕內容並以語音回應

蘋果 AI 突破:Siri 能「理解」螢幕內容並以語音回應 apple ai siri screen content

蘋果公司最新的人工智慧技術帶來了一個令人振奮的消息:Siri 將會變得更加智慧!最近,蘋果公司的 AI 研究團隊宣布了一項突破性的創新,他們成功開發了一款全新的人工智慧系統。

這款系統能夠「看懂」手機螢幕上的內容,並且能夠根據使用者的指令以及對話的上下文,以更加自然流暢的方式與使用者進行互動。

 

ReALM系統:智慧引擎的誕生

這款令人矚目的系統被命名為 ReALM (Reference Resolution As Language Modeling),它利用了大型語言模型的優勢,將複雜的螢幕視覺元素轉換為純粹的語言問題。

這一創新的轉換使得 ReALM 在性能上大幅提升,使得 Siri 等語音助理在理解用戶指令以及螢幕內容時更加靈活準確。

apple ai siri screen content 2

 

ReALM 提升對話助理能力

ReALM 系統的一大突破在於它能夠重新構建螢幕上的內容,通過分析螢幕上的訊息以及其位置資訊,生成文字描述。

這一創新技術的結合,使得在處理內容指向等任務時,ReALM 系統表現優異,超越了以往的技術,甚至超越了 GPT-4。

 

ReALM 實際應用與挑戰

這項研究不僅突顯了專注於語言模型的潛力,更展示了蘋果公司對於技術持續投入的決心。然而,自動化解析螢幕內容仍然面臨著一些挑戰,特別是在處理更加複雜的視覺內容時。

儘管如此,ReALM 系統在參照解析任務上取得了顯著的進步,為未來智慧對話助理的發展指明了一條光明的道路。


發表留言