▲ 蘋果Siri將有更強大的人工智慧。(圖/路透社)
記者陳俐穎/綜合報導
雖然目前Siri 可以嘗試描述訊息中的影像,但效果並不穩定。不過,蘋果並沒有放棄人工智慧領域的探索。在最近的一篇研究論文中,蘋果的人工智慧團隊描述了一個可以顯著提升 Siri 智慧的模型,這個名為ReALM 的模型在測試中優於OpenAI 的知名語言模型GPT-4.0。
ReALM 的特別之處在於,它可以同時理解使用者螢幕上的內容和正在進行的操作。論文將資訊分為以下三種:
螢幕實體:指的是目前顯示在使用者螢幕上的內容。
對話實體:指的是與對話相關的內容。例如,使用者說打電話給媽媽,那麼媽媽的聯絡人資訊就是對話實體。
背景實體:指的是與使用者當下操作或螢幕顯示內容可能不會直接相關的實體,例如正在播放的音樂或即將響起的鬧鈴。
如果能夠完美運行,ReALM 將使Siri 變得更加聰明和實用。他們將ReALM 與OpenAI 的GPT-3.5 和GPT-4.0 進行了效能比較。
同時測試了OpenAI 提供的GPT-3.5 和GPT-4.0 模型,並為它們提供上下文信息,讓其預測一系列可能的實體。GPT-3.5 只接受文字輸入,因此只提供了文字提示。而GPT-4 能夠理解圖像信息,因此為它提供了螢幕截圖,這顯著提升了它的螢幕實體識別性能。
蘋果的ReALM 在識別不同類型實體方面均取得了顯著進步,即使是最小的模型,在螢幕實體識別上的準確率也比原有系統提升了5% 以上。與GPT-3.5 和GPT-4.0 的在對比中,最小的模型與GPT-4.0 的性能相當,而更大的模型則明顯優於它。
論文的結論之一是,ReALM 即使擁有比GPT-4 少得多的參數,也能在性能上與之匹敵,並且在處理特定領域的用戶指令時表現更加出色,這使得ReALM 成為一種可以在設備端運作的、實用且有效率的實體辨識系統。
讀者迴響