蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

本文作者：賴文昕

2024-04-10 14:31

導(dǎo)語：導(dǎo)語：手機廠商自研的端側(cè)模型功能，會超越純正的大模型團隊嗎？

編譯 | 賴文昕

編輯 | 陳彩嫻

大模型的誕生，讓科技巨頭與創(chuàng)業(yè)公司們在新一輪的競賽中再次鳴槍出發(fā)，OpenAI、Anthropic、Mistral等創(chuàng)業(yè)之星的升起更是證明了在新技術(shù)的影響下，大廠并不存在絕對的優(yōu)勢。

不久前，蘋果叫停了啟動十多年且投入數(shù)十億美元的自動駕駛電動汽車項目，美國總部裁員了600多人，另有近2000名員工轉(zhuǎn)到AI部門。

然而，在目前市場上的主流智能手機品牌中，蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領(lǐng)頭羊地位的蘋果，似乎在大模型這一局中罕見地落后了。

4月8日，蘋果發(fā)表了一個名為“Ferret-UI”的新工作，這是一個能“看懂”手機屏幕上并能執(zhí)行任務(wù)的多模態(tài)模型，專為增強對移動端 UI 屏幕的理解而定制，配備了引用（referring）、定位（grounding）和推理（reasoning）功能。

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

論文鏈接：https://arxiv.org/pdf/2404.05719.pdf

半年前，蘋果和哥倫比亞大學(xué)研究團隊聯(lián)合發(fā)布的多模態(tài)大模型“Ferret”就已具有較高的圖文關(guān)聯(lián)能力，而“Ferret-UI”則是更聚焦移動端、關(guān)注用戶交互。

研究團隊認為，F(xiàn)erret-UI 具備了解決現(xiàn)有大部分通用多模態(tài)大模型所缺乏的理解用戶界面 (UI) 屏幕并與其有效交互的能力。

UI 任務(wù)表現(xiàn)超越GPT-4V

將重點放在 UI 后，F(xiàn)erret-UI 有何亮點呢？

蘋果的團隊比較了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任務(wù)上的性能，并在高級任務(wù)上將開源的 UI 多模態(tài)模型 Fuyu 和 CogAgent 也納入對比之中。

首先是基礎(chǔ)的 UI 任務(wù)性能測試。

Ferret-UI 在大多數(shù)基礎(chǔ) UI 任務(wù)上都展現(xiàn)出了優(yōu)越的性能，尤其是在與iPhone相關(guān)的任務(wù)上，除了“查找文本”任務(wù)外，它在所有任務(wù)上都超過了Ferret和GPT-4V。

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

在OCR（光學(xué)字符識別）、圖標識別和控件分類等基礎(chǔ) UI 任務(wù)上，F(xiàn)erret-UI 的平均準確率分別為72.9%、82.4%和81.4%，遠超 GPT-4V 的平均準確率，后者分別為47.6%、61.3%和37.7%。

在安卓任務(wù)上，GPT-4V 的性能顯著下降，特別是在定位任務(wù)上，這可能是因為安卓屏幕上的小部件更多且更小，使得定位任務(wù)更具挑戰(zhàn)性。

值得一提的是，在OCR任務(wù)中，模型預(yù)測的是目標區(qū)域旁邊的文本，而不是目標區(qū)域內(nèi)的文本。這對于較小的文本和非?？拷渌麅?nèi)容的文本來說很常見。

而 Ferret-UI 卻能夠準確預(yù)測部分被切斷的文本，即使在OCR模型返回錯誤文本的情況下也是如此。

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

在查找文本、查找圖標和查找控件等定位任務(wù)上，F(xiàn)erret-UI也展現(xiàn)出了優(yōu)越的性能。

而在高級 UI 任務(wù)性能的比拼中，F(xiàn)erret-UI 同樣表現(xiàn)優(yōu)秀。在詳細描述（DetDes）、感知對話（ConvP）、交互對話（ConvI）和功能推斷（FuncIn）等高級任務(wù)上，F(xiàn)erret-UI 展現(xiàn)了與 GPT-4V 相當(dāng)?shù)男阅埽⑶以谀承┤蝿?wù)上超過了GPT-4V。

而與開源UI多模態(tài)模型 Fuyu 和 CogAgent 相比，F(xiàn)erret-UI 在大多數(shù)任務(wù)上均實現(xiàn)超過。特別是在 iPhone 平臺上，F(xiàn)erret-UI 的性能得分顯著高于 Fuyu 和 CogAgent。

而且，盡管 Ferret-UI 的訓(xùn)練數(shù)據(jù)集沒有包含特定的安卓數(shù)據(jù)，但它在安卓平臺的高級任務(wù)上仍表現(xiàn)出了可觀的性能，表明了模型具有在不同操作系統(tǒng)間的 UI 知識遷移能力。

Anyres 技術(shù)解決屏幕長寬比各異難題

那么，F(xiàn)erret-UI 是如何做到在多項 UI 任務(wù)中表現(xiàn)出色的呢？

Ferret-UI 的一個關(guān)鍵創(chuàng)新是在 Ferret 的基礎(chǔ)上引入了“任何分辨率”（any resolution，簡稱anyres）技術(shù)。這項技術(shù)是為了解決移動設(shè)備 UI 屏幕長寬比多樣化的問題而提出的。

雖然 Ferret-UI-base 緊密遵循 Ferret 的架構(gòu)，但 Ferret-UI-anyres 加入了額外的細粒度圖像特征，尤其是一個預(yù)訓(xùn)練的圖像編碼器和投影層為整個屏幕生成圖像特征。

對于根據(jù)原始圖像長寬比獲得的每個子圖像，都會生成額外的圖像特征；對于具有區(qū)域引用的文本，一個視覺采樣器會生成相應(yīng)的區(qū)域連續(xù)特征。

大型語言模型（LLM）則使用全圖表示、子圖表示、區(qū)域特征和文本嵌入來生成響應(yīng)。

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

Ferret-UI-anyres架構(gòu)

不過，Anyres 技術(shù)有何特別之處？

傳統(tǒng)的模型可能需要固定大小的輸入，但手機等移動設(shè)備的屏幕大小和長寬比各異，顯然給模型的輸入帶來了挑戰(zhàn)。

為了適應(yīng)這一點，F(xiàn)erret-UI 將屏幕分割成多個子圖像，這樣可以對每個子圖像進行放大，從而捕捉到更多的細節(jié)。

具體來說，對于每個基于原始圖像長寬比獲得的子圖像，都會生成額外的圖像特征。對于具有區(qū)域引用的文本，視覺采樣器會生成相應(yīng)的區(qū)域連續(xù)特征。

這種方法不僅適用于不同長寬比的屏幕，還提高了模型對UI元素的細節(jié)識別能力，能夠突出顯示屏幕上的小型對象，如圖標和文本，對于提高模型的識別和定位精度至關(guān)重要。

另外，蘋果研究團隊還設(shè)計了一個分層次的實驗方法，從簡單到復(fù)雜，以逐步提升 Ferret-UI 模型的能力。

從基礎(chǔ)的識別和分類任務(wù)開始，F(xiàn)erret-UI 模型建立了對 UI 元素的基本理解，學(xué)會了識別和分類 UI 元素，為處理更復(fù)雜的任務(wù)打下基礎(chǔ)。

接著逐步過渡到需要更高層次理解的對話和推斷任務(wù)。隨著模型能力的提高，任務(wù)變得更加復(fù)雜，要求模型不僅要識別 UI 元素，還要理解它們的功能和上下文。高級任務(wù)的設(shè)計為模型提供了必要的背景知識和理解能力，使其能夠處理復(fù)雜的UI交互。

分層次的任務(wù)設(shè)計不僅有助于模型逐步學(xué)習(xí)，還能夠確保模型在面對更復(fù)雜的 UI 交互時具有足夠的背景知識和理解能力。通過這種方式，F(xiàn)erret-UI 能夠更好地理解和響應(yīng)用戶的指令，提供更加準確和有用的交互。

從基礎(chǔ)的識別和分類到高級的描述和推斷，F(xiàn)erret-UI 在面對真實世界中的UI交互時，能夠提供準確和有用的響應(yīng)。再結(jié)合 anyres 技術(shù)處理不同分辨率的屏幕，進一步增強了其在實際應(yīng)用中的有效性和用戶體驗。

結(jié)語

面對當(dāng)下激烈的大模型“廝殺”，科技巨頭們亟需思考如何對市場戰(zhàn)略和產(chǎn)品進行與時俱進的布局，蘋果自然也不例外。

無論是Ferret-UI、Ferret-UI的前身 Ferret 還是旨在改善與語音助手交互的ReALM，蘋果正一步步推進著能夠讀取屏幕信息的模型研究。

Ferret-UI 能夠在移動設(shè)備上提供高質(zhì)量的UI理解和交互，但它能否成為一個強大的工具，促使 iPhone 引入 AI，讓蘋果從稍顯落后的境地反超呢？

讓我們拭目以待。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))本文作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢，歡迎添加交流，互通有無。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門文章

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V

蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機 UI 任務(wù)超越 GPT-4V