0
本文作者: 賴文昕 | 2024-04-10 14:31 |
編譯 | 賴文昕
編輯 | 陳彩嫻
大模型的誕生,讓科技巨頭與創(chuàng)業(yè)公司們?cè)谛乱惠喌母傎愔性俅硒Q槍出發(fā),OpenAI、Anthropic、Mistral等創(chuàng)業(yè)之星的升起更是證明了在新技術(shù)的影響下,大廠并不存在絕對(duì)的優(yōu)勢。
不久前,蘋果叫停了啟動(dòng)十多年且投入數(shù)十億美元的自動(dòng)駕駛電動(dòng)汽車項(xiàng)目,美國總部裁員了600多人,另有近2000名員工轉(zhuǎn)到AI部門。
然而,在目前市場上的主流智能手機(jī)品牌中,蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領(lǐng)頭羊地位的蘋果,似乎在大模型這一局中罕見地落后了。
4月8日,蘋果發(fā)表了一個(gè)名為“Ferret-UI”的新工作,這是一個(gè)能“看懂”手機(jī)屏幕上并能執(zhí)行任務(wù)的多模態(tài)模型,專為增強(qiáng)對(duì)移動(dòng)端 UI 屏幕的理解而定制,配備了引用(referring)、定位(grounding)和推理(reasoning)功能。
論文鏈接:https://arxiv.org/pdf/2404.05719.pdf
半年前,蘋果和哥倫比亞大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布的多模態(tài)大模型“Ferret”就已具有較高的圖文關(guān)聯(lián)能力,而“Ferret-UI”則是更聚焦移動(dòng)端、關(guān)注用戶交互。
研究團(tuán)隊(duì)認(rèn)為,F(xiàn)erret-UI 具備了解決現(xiàn)有大部分通用多模態(tài)大模型所缺乏的理解用戶界面 (UI) 屏幕并與其有效交互的能力。
UI 任務(wù)表現(xiàn)超越GPT-4V
將重點(diǎn)放在 UI 后,F(xiàn)erret-UI 有何亮點(diǎn)呢?
蘋果的團(tuán)隊(duì)比較了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任務(wù)上的性能,并在高級(jí)任務(wù)上將開源的 UI 多模態(tài)模型 Fuyu 和 CogAgent 也納入對(duì)比之中。
首先是基礎(chǔ)的 UI 任務(wù)性能測試。
Ferret-UI 在大多數(shù)基礎(chǔ) UI 任務(wù)上都展現(xiàn)出了優(yōu)越的性能,尤其是在與iPhone相關(guān)的任務(wù)上,除了“查找文本”任務(wù)外,它在所有任務(wù)上都超過了Ferret和GPT-4V。
在OCR(光學(xué)字符識(shí)別)、圖標(biāo)識(shí)別和控件分類等基礎(chǔ) UI 任務(wù)上,F(xiàn)erret-UI 的平均準(zhǔn)確率分別為72.9%、82.4%和81.4%,遠(yuǎn)超 GPT-4V 的平均準(zhǔn)確率,后者分別為47.6%、61.3%和37.7%。
在安卓任務(wù)上,GPT-4V 的性能顯著下降,特別是在定位任務(wù)上,這可能是因?yàn)榘沧科聊簧系男〔考嗲腋?,使得定位任?wù)更具挑戰(zhàn)性。
值得一提的是,在OCR任務(wù)中,模型預(yù)測的是目標(biāo)區(qū)域旁邊的文本,而不是目標(biāo)區(qū)域內(nèi)的文本。這對(duì)于較小的文本和非??拷渌麅?nèi)容的文本來說很常見。
而 Ferret-UI 卻能夠準(zhǔn)確預(yù)測部分被切斷的文本,即使在OCR模型返回錯(cuò)誤文本的情況下也是如此。
在查找文本、查找圖標(biāo)和查找控件等定位任務(wù)上,F(xiàn)erret-UI也展現(xiàn)出了優(yōu)越的性能。
而在高級(jí) UI 任務(wù)性能的比拼中,F(xiàn)erret-UI 同樣表現(xiàn)優(yōu)秀。在詳細(xì)描述(DetDes)、感知對(duì)話(ConvP)、交互對(duì)話(ConvI)和功能推斷(FuncIn)等高級(jí)任務(wù)上,F(xiàn)erret-UI 展現(xiàn)了與 GPT-4V 相當(dāng)?shù)男阅?,并且在某些任?wù)上超過了GPT-4V。
而與開源UI多模態(tài)模型 Fuyu 和 CogAgent 相比,F(xiàn)erret-UI 在大多數(shù)任務(wù)上均實(shí)現(xiàn)超過。特別是在 iPhone 平臺(tái)上,F(xiàn)erret-UI 的性能得分顯著高于 Fuyu 和 CogAgent。
而且,盡管 Ferret-UI 的訓(xùn)練數(shù)據(jù)集沒有包含特定的安卓數(shù)據(jù),但它在安卓平臺(tái)的高級(jí)任務(wù)上仍表現(xiàn)出了可觀的性能,表明了模型具有在不同操作系統(tǒng)間的 UI 知識(shí)遷移能力。
Anyres 技術(shù)解決屏幕長寬比各異難題
那么,F(xiàn)erret-UI 是如何做到在多項(xiàng) UI 任務(wù)中表現(xiàn)出色的呢?
Ferret-UI 的一個(gè)關(guān)鍵創(chuàng)新是在 Ferret 的基礎(chǔ)上引入了“任何分辨率”(any resolution,簡稱anyres)技術(shù)。這項(xiàng)技術(shù)是為了解決移動(dòng)設(shè)備 UI 屏幕長寬比多樣化的問題而提出的。
雖然 Ferret-UI-base 緊密遵循 Ferret 的架構(gòu),但 Ferret-UI-anyres 加入了額外的細(xì)粒度圖像特征,尤其是一個(gè)預(yù)訓(xùn)練的圖像編碼器和投影層為整個(gè)屏幕生成圖像特征。
對(duì)于根據(jù)原始圖像長寬比獲得的每個(gè)子圖像,都會(huì)生成額外的圖像特征;對(duì)于具有區(qū)域引用的文本,一個(gè)視覺采樣器會(huì)生成相應(yīng)的區(qū)域連續(xù)特征。
大型語言模型(LLM)則使用全圖表示、子圖表示、區(qū)域特征和文本嵌入來生成響應(yīng)。
Ferret-UI-anyres架構(gòu)
不過,Anyres 技術(shù)有何特別之處?
傳統(tǒng)的模型可能需要固定大小的輸入,但手機(jī)等移動(dòng)設(shè)備的屏幕大小和長寬比各異,顯然給模型的輸入帶來了挑戰(zhàn)。
為了適應(yīng)這一點(diǎn),F(xiàn)erret-UI 將屏幕分割成多個(gè)子圖像,這樣可以對(duì)每個(gè)子圖像進(jìn)行放大,從而捕捉到更多的細(xì)節(jié)。
具體來說,對(duì)于每個(gè)基于原始圖像長寬比獲得的子圖像,都會(huì)生成額外的圖像特征。對(duì)于具有區(qū)域引用的文本,視覺采樣器會(huì)生成相應(yīng)的區(qū)域連續(xù)特征。
這種方法不僅適用于不同長寬比的屏幕,還提高了模型對(duì)UI元素的細(xì)節(jié)識(shí)別能力,能夠突出顯示屏幕上的小型對(duì)象,如圖標(biāo)和文本,對(duì)于提高模型的識(shí)別和定位精度至關(guān)重要。
另外,蘋果研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)分層次的實(shí)驗(yàn)方法,從簡單到復(fù)雜,以逐步提升 Ferret-UI 模型的能力。
從基礎(chǔ)的識(shí)別和分類任務(wù)開始,F(xiàn)erret-UI 模型建立了對(duì) UI 元素的基本理解,學(xué)會(huì)了識(shí)別和分類 UI 元素,為處理更復(fù)雜的任務(wù)打下基礎(chǔ)。
接著逐步過渡到需要更高層次理解的對(duì)話和推斷任務(wù)。隨著模型能力的提高,任務(wù)變得更加復(fù)雜,要求模型不僅要識(shí)別 UI 元素,還要理解它們的功能和上下文。高級(jí)任務(wù)的設(shè)計(jì)為模型提供了必要的背景知識(shí)和理解能力,使其能夠處理復(fù)雜的UI交互。
分層次的任務(wù)設(shè)計(jì)不僅有助于模型逐步學(xué)習(xí),還能夠確保模型在面對(duì)更復(fù)雜的 UI 交互時(shí)具有足夠的背景知識(shí)和理解能力。通過這種方式,F(xiàn)erret-UI 能夠更好地理解和響應(yīng)用戶的指令,提供更加準(zhǔn)確和有用的交互。
從基礎(chǔ)的識(shí)別和分類到高級(jí)的描述和推斷,F(xiàn)erret-UI 在面對(duì)真實(shí)世界中的UI交互時(shí),能夠提供準(zhǔn)確和有用的響應(yīng)。再結(jié)合 anyres 技術(shù)處理不同分辨率的屏幕,進(jìn)一步增強(qiáng)了其在實(shí)際應(yīng)用中的有效性和用戶體驗(yàn)。
結(jié)語
面對(duì)當(dāng)下激烈的大模型“廝殺”,科技巨頭們亟需思考如何對(duì)市場戰(zhàn)略和產(chǎn)品進(jìn)行與時(shí)俱進(jìn)的布局,蘋果自然也不例外。
無論是Ferret-UI、Ferret-UI的前身 Ferret 還是旨在改善與語音助手交互的ReALM,蘋果正一步步推進(jìn)著能夠讀取屏幕信息的模型研究。
Ferret-UI 能夠在移動(dòng)設(shè)備上提供高質(zhì)量的UI理解和交互,但它能否成為一個(gè)強(qiáng)大的工具,促使 iPhone 引入 AI,讓蘋果從稍顯落后的境地反超呢?
讓我們拭目以待。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))本文作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢,歡迎添加交流,互通有無。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。