0
本文作者: 黃楠 | 2023-06-08 21:00 |
在關(guān)于 ChatGPT 的討論中,“數(shù)據(jù)飛輪” 被視為是經(jīng) ChatGPT 所驗(yàn)證的變革引擎,是大模型智能飛躍中的關(guān)鍵一環(huán):向用戶開(kāi)放模型,建立用戶真實(shí)數(shù)據(jù)反饋與模型迭代間的飛輪,用戶反饋數(shù)據(jù)越多,模型的迭代速度也越快。
但很少有人知道,這一路線早在七年前,何曉冬與他當(dāng)時(shí)所在的微軟雷德蒙德研究院深度學(xué)習(xí)技術(shù)中心的團(tuán)隊(duì)同事就已經(jīng)走過(guò)。
那是在 2016 年 3 月,納德拉(微軟CEO)帶著一個(gè)名為 CaptionBot 的 AI 應(yīng)用產(chǎn)品亮相微軟 Build 大會(huì),CaptionBot 跟全球用戶見(jiàn)面僅一星期,用戶量就突破百萬(wàn)。
同樣是先有一篇論文,在技術(shù)上取得突破,再推出一個(gè)產(chǎn)品讓用戶參與使用,但過(guò)去的 CaptionBot 最終沒(méi)能成為今天的 ChatGPT。在 2023 小蠻腰科技大會(huì)暨 AIGC 人工智能峰會(huì)接受 AI 科技評(píng)論的采訪時(shí),何曉冬表達(dá)了自己的遺憾。
新機(jī)遇在七年后的大模型時(shí)代再次到來(lái)。
在過(guò)去五年的 CVPR 發(fā)表論文排序中,排名前二十的論文里,與多模態(tài)研究相關(guān)的工作僅一篇。這個(gè)工作由何曉冬帶領(lǐng)團(tuán)隊(duì)完成,論文所提出的“Bottom-up and top-down attention”注意力機(jī)制,用于跨模態(tài)的語(yǔ)言和圖像信息在語(yǔ)義層次的對(duì)齊研究,單篇引用量已超過(guò) 4000 次。
Sam Altman 在談及 AGI 的前景中,提出了必須要共同進(jìn)化,才能達(dá)到通用智能,實(shí)現(xiàn)通用智能的要素之一,正是語(yǔ)言大模型令人們?yōu)橹缘摹坝楷F(xiàn)”時(shí)刻。多模態(tài)的“涌現(xiàn)”暫未出現(xiàn),何曉冬認(rèn)為,在多模態(tài)大模型的技術(shù)探索路線中必須回答三個(gè)問(wèn)題,首先就是決定在哪個(gè)層次做多模態(tài)信息的融合。
何曉冬給出的答案是,在語(yǔ)義層次的對(duì)齊、融合。
而在技術(shù)之外,ChatGPT 為人稱道的“極致工程化”,將產(chǎn)品在變革中所扮演的角色推向了一個(gè)新的高度。
正如七年前 CaptionBot 第一次邁進(jìn)的“河”、以及 ChatGPT 第二次踏進(jìn)“同一條河”,何曉冬相信多模態(tài)大模型也會(huì)按照同樣的方式,先取得突破性的技術(shù)革命、發(fā)布一個(gè)粗糙但可用的產(chǎn)品、真正走入用戶。“產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新不分家,不管多粗糙、首先第一步是先用起來(lái)?!?/p>
大模型會(huì)帶來(lái)AI技術(shù)的普惠,而不是加劇技術(shù)鴻溝。當(dāng)大模型具備了信息壓縮、知識(shí)網(wǎng)絡(luò)構(gòu)建、邏輯判斷與推理等良好能力之后,下一個(gè)臺(tái)階的踏步高度就會(huì)降低。此時(shí),產(chǎn)業(yè)受益之處就體現(xiàn)出來(lái)了,產(chǎn)業(yè)利潤(rùn)低洼地的企業(yè),以及供應(yīng)鏈上地位低的中小企業(yè)都有機(jī)會(huì)用上“大模型”。如此一來(lái),不僅不會(huì)加大數(shù)字和技術(shù)鴻溝,還會(huì)產(chǎn)生普惠價(jià)值。
何曉冬在西雅圖華盛頓湖
做多模態(tài)大模型要回答的三個(gè)問(wèn)題
AI 科技評(píng)論:2020 年的 GAIR 大會(huì)上,您就談到多模態(tài)大模型的愿景。今年 3 月 GPT-4 發(fā)布,果然是多模態(tài)大模型。您能率先預(yù)見(jiàn)多模態(tài)的趨勢(shì),是否有過(guò)往研究經(jīng)歷的背書(shū)?
何曉冬:我是 2014 年最早開(kāi)始做多模態(tài) AI 的那批人之一。
多模態(tài)有它的歷史。在深度學(xué)習(xí)之前,多模態(tài)有過(guò)一些工作,但整體都比較粗糙。語(yǔ)言和視覺(jué)信號(hào)的處理方式不同,以前“生搬硬湊”放在一塊做出來(lái)的效果并不好,例如一個(gè)簡(jiǎn)單“看圖說(shuō)話”的應(yīng)用,把一張視覺(jué)圖片用語(yǔ)言描述出來(lái),深度學(xué)習(xí)前采用的方法是,先做一些物體識(shí)別,得到相應(yīng)的關(guān)鍵詞,再把詞拼成一個(gè)句子。在這個(gè)過(guò)程中,由于這些圖像是以一個(gè)像素、語(yǔ)言以一個(gè)詞的形式存在,難以將語(yǔ)言和圖像對(duì)應(yīng)起來(lái)。
真正開(kāi)始突破是在 2014 年,微軟發(fā)布了一個(gè)名為 MS COCO 的數(shù)據(jù)集。跟 ImageNet 不一樣,ImageNet 用作識(shí)別,圖片主要以單個(gè)物體的形式存在,例如一個(gè)茶壺、一只小貓,內(nèi)容太復(fù)雜容易出現(xiàn)歧義,增加識(shí)別難度。而 MS COCO 則相反,一開(kāi)始就是瞄準(zhǔn)了視覺(jué)信號(hào)在語(yǔ)義層次的描述,因此數(shù)據(jù)集中的物體更豐富,同時(shí)也會(huì)在標(biāo)注時(shí)讓人用一句話來(lái)描述內(nèi)容。
于是在 2014 年的時(shí)候,我開(kāi)始想如何把語(yǔ)義實(shí)現(xiàn)跨模態(tài)理解。舉個(gè)例子,當(dāng)我們看到一個(gè)茶壺、以及“茶壺”這個(gè)詞時(shí),在我們的腦海中反映的是同一個(gè)意思,以概念的形式存在,因此我們認(rèn)為,或許可以語(yǔ)義層次嘗試和完成多模態(tài)智能的統(tǒng)一。
巧合的是,2013 年,我們?cè)l(fā)表過(guò)一篇深度結(jié)構(gòu)化語(yǔ)義模型DSSM(Deep Structured Semantic Models)的工作。當(dāng)初這個(gè)工作發(fā)布時(shí)只針對(duì)單一模態(tài)、即語(yǔ)言,跨模態(tài)的想法出現(xiàn)后,這項(xiàng)工作也從 2014 年開(kāi)始、被我們用在做語(yǔ)言加視覺(jué)的語(yǔ)義對(duì)齊建模,提出了語(yǔ)言-視覺(jué)深度多模態(tài)語(yǔ)義模型(DMSM)。
這項(xiàng)工作發(fā)表在 CVPR 2015,同時(shí)我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰(zhàn)賽,比賽時(shí)給出一張圖片,由 AI 模型去生成對(duì)應(yīng)的語(yǔ)義描述(圖生文),最后讓人當(dāng)裁判來(lái)判斷描述是否準(zhǔn)確,就像做圖靈測(cè)試一樣。最后我們的模型得到那場(chǎng)比賽的第一名,與谷歌并列第一,這也是真正意義上第一次把多模態(tài)這件事比較成功地做起來(lái)了。
因此,多模態(tài)智能可以追溯到 2014 年,我的研究方向也在這個(gè)過(guò)程中向多模態(tài)轉(zhuǎn)移,從原本只做 NLP 、又往視覺(jué)的方向進(jìn)一步擴(kuò)展。
期間我們數(shù)次想將其做成一個(gè)產(chǎn)品,到 2016 年年初這個(gè)想法得以實(shí)現(xiàn),我們推出了一個(gè)名為 CaptionBot 的 AI 產(chǎn)品。
何曉冬團(tuán)隊(duì)在給納德拉等展示 CaptionBot
像今天的 ChatGPT 一樣,CaptionBot 也是一個(gè)使用很簡(jiǎn)單的產(chǎn)品,通過(guò)下載 APP,使用手機(jī)拍照后,CaptionBot 可以精準(zhǔn)對(duì)照片內(nèi)容進(jìn)行文字描述。納德拉在微軟 Build 大會(huì)上發(fā)布后,僅一星期用戶量就突破百萬(wàn)。
CaptionBot 應(yīng)用相關(guān)報(bào)道
在 Build 大會(huì)上發(fā)布后,我去硅谷參加英偉達(dá)的 GTC 大會(huì)時(shí),老黃(黃仁勛)也對(duì) CaptionBot 很感興趣,還當(dāng)場(chǎng)測(cè)試了一張。
“Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture”— By CaptionBot
2017 年初,在 CaptionBot 發(fā)布了一年之后,基于期間用戶使用的交互反饋,我們進(jìn)一步提升了它的技術(shù)水平,并把這個(gè)產(chǎn)品集成進(jìn)了Office 產(chǎn)品家族當(dāng)中去。Office 是微軟公司最重要的產(chǎn)品線之一,這也意味著這個(gè) AI 應(yīng)用的效果達(dá)到了一個(gè)新的水準(zhǔn)。
而技術(shù)研究還在進(jìn)步,在多模態(tài)大模型研究中,一個(gè)重要的基石就在于如何讓語(yǔ)言和視覺(jué)信號(hào)進(jìn)行融合和對(duì)齊。在 2018 年,受人類的視覺(jué)注意力機(jī)制啟發(fā),我們進(jìn)一步提出了一個(gè)新的多模態(tài)注意力機(jī)制“Bottom-up and top-down attention”,為語(yǔ)言和圖像信息在語(yǔ)義層次的對(duì)齊提出了一個(gè)基本框架,某種意義上也奠定了跨模態(tài)信息處理的基礎(chǔ)。(截至發(fā)稿前,該論文的引用次數(shù)已超過(guò)4128次。)
AI 科技評(píng)論:是什么令您在當(dāng)時(shí)就感知到,多模態(tài)會(huì)是一個(gè)好的方向?
何曉冬:這個(gè)原因很樸素。以前我們經(jīng)常說(shuō)想做 AGI(通用人工智能),而 AGI 的一個(gè)模板就是人本身。
人的智能行為是多模態(tài)的,比如說(shuō)我們面對(duì)面聊天時(shí)、不會(huì)是閉著眼睛聊,視覺(jué)和語(yǔ)言是對(duì)應(yīng)的。因此,真正的通用人工智能一定是多模態(tài)的。只是以前局限于技術(shù)能力不足,單模態(tài)都處理不好,多模態(tài)就不處理了。
AI 科技評(píng)論:相比語(yǔ)言大模型(單一模態(tài)),多模態(tài)大模型的研究難度是否會(huì)更高?
何曉冬:會(huì)比較難做。在每一個(gè)層次,多模態(tài)都會(huì)比單模態(tài)更挑戰(zhàn),進(jìn)入大模型時(shí)代,多模態(tài)大模型肯定會(huì)比單模態(tài)大模型更挑戰(zhàn)。
當(dāng)初我們雖然做多模態(tài)模型,但相對(duì)來(lái)說(shuō)模型規(guī)模偏小,沒(méi)有做到現(xiàn)在的單模態(tài)大語(yǔ)言模型那么大的規(guī)模。那時(shí)候有個(gè)一億參數(shù)就覺(jué)得好像不錯(cuò)了,到現(xiàn)在都是百億、千億的參數(shù)。但我們也看到,今天做大模型相比當(dāng)年做大模型,更挑戰(zhàn)的同時(shí),合作也更加容易、視野更加開(kāi)闊了。
AI 科技評(píng)論:從技術(shù)角度來(lái)看,主要難在什么地方?
何曉冬:多模態(tài)做大模型的話,有幾個(gè)技術(shù)難點(diǎn)跟大家探討。
第一個(gè)問(wèn)題是,在哪個(gè)層次上、做多模態(tài)大模型的目的是什么?
這個(gè)目的并非是令語(yǔ)言模型可以具備多模態(tài)功能,如果僅出于這一目的,我們可以通過(guò)簡(jiǎn)單調(diào)用另一個(gè)模型實(shí)現(xiàn)。例如跟一個(gè)語(yǔ)言模型說(shuō)幫我畫(huà)畫(huà),那么它可以調(diào) Midjourney 把圖像畫(huà)出來(lái),這種屬于比較淺層的多模態(tài)。從任務(wù)層次上看,好像可以完成很多任務(wù),但在模型層次上,二者是分開(kāi)、割裂的模型,也無(wú)法看到多模態(tài)級(jí)別的智能涌現(xiàn)。
大模型之所以火,不是因?yàn)樗?,而是因?yàn)榭吹搅怂挠楷F(xiàn)。此前的機(jī)器學(xué)習(xí)算法,往往是模型規(guī)模變大后、邊際效果提升越來(lái)越小,但現(xiàn)在人們發(fā)現(xiàn),模型大小過(guò)千億后,它的邊際效益是遞增的,突然間效果就上去了,這被稱為智能的“涌現(xiàn)”,因此,涌現(xiàn)是大模型最令人著迷的地方。
當(dāng)我們希望看到多模態(tài)層次的涌現(xiàn)時(shí),意味著我們需要將模型在底層去進(jìn)行語(yǔ)言和視覺(jué)的結(jié)合,只有在最底層的結(jié)合才能出現(xiàn)涌現(xiàn)。也就是說(shuō),只有這個(gè)模型是稠密的模型,才會(huì)出現(xiàn)涌現(xiàn)的情況。
所以第一個(gè)問(wèn)題就是,大模型做多模態(tài),如果目標(biāo)是涌現(xiàn),那必須要做稠密的多模態(tài)大模型。
第二個(gè)問(wèn)題是,當(dāng)模型變聰明時(shí),是在哪一個(gè)層次開(kāi)始變得聰明?
我們常說(shuō)一圖勝千言,所以相對(duì)于“圖生文”,“文生圖”是一個(gè)更挑戰(zhàn)性的多模態(tài)任務(wù)。給機(jī)器一兩句話的描述,令其將圖形生成,需要機(jī)器發(fā)揮極大的想象空間。
例如用“文生圖”模型畫(huà)一只鳥(niǎo),面對(duì)粗略的描述,AI 可以進(jìn)行自動(dòng)細(xì)節(jié)補(bǔ)充,并且不僅是全局對(duì)得上,局部也要對(duì)得上。難點(diǎn)在于,原始視覺(jué)信號(hào)只是像素點(diǎn),而語(yǔ)言信號(hào)最原始就是一個(gè)單詞、一個(gè)字符,二者難以對(duì)齊,層次也不一樣,所以要找到一個(gè)合適的層次,把多模態(tài)信息得以對(duì)齊。現(xiàn)在看起來(lái),如果多模態(tài)模型要變得聰明,將會(huì)出現(xiàn)在語(yǔ)義層次。這個(gè)文字驅(qū)動(dòng)視覺(jué)內(nèi)容生成的工作我們?cè)?2017 年底微軟的“顛覆性技術(shù)展望”(Disruptive Technology Review)會(huì)上也給納德拉及管理層做了專題報(bào)告。
2017 年何曉冬及同事用“文生圖” AttnGAN 生成的小鳥(niǎo)
AI 科技評(píng)論:語(yǔ)言模型堆參數(shù)的殺傷力是智能涌現(xiàn),那么,在多模態(tài)大模型中,堆參數(shù)的意義是什么?在多模態(tài)里,大模型比小模型強(qiáng)在哪?
何曉冬:參數(shù)也很關(guān)鍵,我覺(jué)得很可能需要多種規(guī)模參數(shù)的模型。
當(dāng)我們回答“做什么模型”的第一個(gè)問(wèn)題后,如果你希望做個(gè)能涌現(xiàn)的模型,那么就必須是一個(gè)稠密的大模型。
第二個(gè)問(wèn)題是在哪個(gè)層次的多模態(tài)融合?視覺(jué)和語(yǔ)言二者層次不一樣,所以要找到一個(gè)合適的層次,把多模態(tài)信息得以對(duì)齊,再期望它能夠涌現(xiàn)。現(xiàn)在看起來(lái)可能會(huì)出現(xiàn)在語(yǔ)義層次,但具體怎么樣,還需要探索。
到第三個(gè)問(wèn)題,就是模型結(jié)構(gòu)和模型大小。
大模型的定義還是很虛的。比如什么叫“大”?千億大了,那百億算不算大,如果是在三年前,一個(gè)十億參數(shù)的模型也能叫“大”。
由于視覺(jué)信號(hào)也是復(fù)雜的,因此我認(rèn)為多模態(tài)的模型大小還需要進(jìn)一步增加。
這幾個(gè)問(wèn)題有些是正在做的,有些可能還在探索。
GPT-4 的創(chuàng)新是對(duì)話,還不在多模態(tài)
AI 科技評(píng)論:從 GPT-3 到 GPT-4,GPT-4 比 GPT-3 強(qiáng)在哪里?其多模態(tài)的技術(shù)底層有哪些創(chuàng)新?
何曉冬:我認(rèn)為 GPT-4 相比 GPT-3 ,最大的創(chuàng)新其實(shí)在于對(duì)話,還沒(méi)有在多模態(tài)層次。
GPT-4 在語(yǔ)言模型上、在知識(shí)上做得更深了。有人對(duì)比過(guò),例如面對(duì)同樣的問(wèn)題,GPT-4 的正確率比 GPT-3.5 要好很多,GPT-3 的效果則差得更遠(yuǎn),因?yàn)?GPT-3 并不具備對(duì)話能力,只有生成,對(duì)問(wèn)題各方面的感知、意圖理解等做得并不好?,F(xiàn)在 GPT-4 已經(jīng)可以直接詢問(wèn)多個(gè)問(wèn)題,且通過(guò)多輪對(duì)話、它得以持續(xù)記住過(guò)去的歷史。
AI 科技評(píng)論:目前業(yè)內(nèi)說(shuō)“多模態(tài)大模型”,主要講語(yǔ)音、文本與圖像三種模態(tài)。但目前來(lái)說(shuō),是否主要是文本與圖像兩種模態(tài)的大模型?
何曉冬:語(yǔ)音也有。我們?cè)?2020 年曾在 IEEE JSTSP 辦過(guò)一個(gè)多模態(tài)的智能專刊,除了我們自己做的一個(gè)綜述外,還請(qǐng)到了業(yè)界的比較資深、前沿的學(xué)者進(jìn)行投稿,其中就包括了語(yǔ)音到圖像、語(yǔ)音聲調(diào)等等,因?yàn)檎Z(yǔ)音不光只是文字語(yǔ)音,還覆蓋聲調(diào)、語(yǔ)氣等信息。但不可否認(rèn)的是,至少在早年,多模態(tài)確實(shí)是一個(gè)不那么熱門的話題,一方面是由于技術(shù)難度比較大,另一方面與天然的領(lǐng)域問(wèn)題有關(guān),更多學(xué)者還是專注在一個(gè)領(lǐng)域上做研究,跨領(lǐng)域的比較少。
??溄樱篽ttps://ieeexplore.ieee.org/document/9126279
AI 科技評(píng)論:此前有研究表明,在單一英語(yǔ)數(shù)據(jù)集上訓(xùn)練的語(yǔ)言模型,雖然沒(méi)有經(jīng)過(guò)其他語(yǔ)種的訓(xùn)練,但在執(zhí)行其他語(yǔ)言(如中文、日語(yǔ))的任務(wù)時(shí)性能也有提升。那么,在多模態(tài)里,一種模態(tài)的性能飛躍,是否會(huì)對(duì)其他模態(tài)的智能水平也有所提升?例如,語(yǔ)言模態(tài)的進(jìn)步,對(duì)語(yǔ)音、圖像的智能有影響嗎?
何曉冬:這是有可能的?,F(xiàn)在只是語(yǔ)言模態(tài)的飛躍實(shí)現(xiàn)了,視覺(jué)還沒(méi)有完全起來(lái),因此,一個(gè)模態(tài)帶動(dòng)各種模態(tài)涌現(xiàn),這也是大家在探索的方向。
舉個(gè)例子,現(xiàn)在大家拿“視覺(jué)+語(yǔ)言”來(lái)做,一方面是因?yàn)檫@部分?jǐn)?shù)據(jù)比較多,另一方面則是因?yàn)橐曈X(jué)和語(yǔ)言最重要。因此,如果這個(gè)方向的探索能夠成功,最終不僅是視覺(jué)和語(yǔ)言,更是能提供很多洞察——怎樣做跨模態(tài)、多模態(tài)的涌現(xiàn)。比如說(shuō)會(huì)不會(huì)用 Transformer 架構(gòu)也是一個(gè)未知數(shù),不一定用 Transformer,但也可能跟 Transformer 相關(guān)。只是現(xiàn)在還沒(méi)看到,需要等待最后出來(lái)的是什么,但基礎(chǔ)性的工作已經(jīng)在探索了。
AI 科技評(píng)論:在未來(lái)的多模態(tài)大模型中,是否會(huì)存在一種模態(tài)占主宰地位、其他模態(tài)占附庸地位?如文生圖,現(xiàn)在是文字主導(dǎo),而后生成圖像。
何曉冬:從技術(shù)角度來(lái)說(shuō),不存在說(shuō)誰(shuí)主導(dǎo)誰(shuí)附庸。比如說(shuō)“文生圖”和“圖生文”,我們?nèi)绾闻袛噙@當(dāng)中是文字比圖像重要、還是圖像比文字重要?因?yàn)槎己苤匾?/p>
當(dāng)然,有的人會(huì)認(rèn)為,在圖像或者語(yǔ)音識(shí)別是感知層面的智能,“感知智能”比較基礎(chǔ),因此被視為是比較低端的智能,很多動(dòng)物也具備感知智能。但在語(yǔ)言層面,一般認(rèn)為其是“認(rèn)知智能”,因?yàn)槲淖指w現(xiàn)人具備的高級(jí)的智能,這也是圖靈所提出的,要通過(guò)對(duì)話、而不是識(shí)別圖片的方式,來(lái)判斷機(jī)器是否具有智能。
總體而言,或許文字可能更深?yuàn)W一些,但也只能稱為從基礎(chǔ)智能到高層智能,并不能說(shuō)哪個(gè)模態(tài)要比哪個(gè)模態(tài)更重要。
多模態(tài)的“ChatGPT 時(shí)刻”需要產(chǎn)品
AI 科技評(píng)論:您之前說(shuō)過(guò)一點(diǎn),讓我們印象特別深刻:ChatGPT 的啟示是“產(chǎn)品形態(tài)驅(qū)動(dòng)技術(shù)研究”。那么,目前主流的多模態(tài)應(yīng)用有哪些?
何曉冬:應(yīng)用比較多的是在數(shù)字人、數(shù)字員工等,數(shù)字人天然是個(gè)多模態(tài)的應(yīng)用。
AI 科技評(píng)論:追逐的過(guò)程中,更多是技術(shù)上的飛躍,還是產(chǎn)品上的創(chuàng)新?
何曉冬:應(yīng)用的形式一般不會(huì)讓你感覺(jué)特別稀奇,但應(yīng)用的效果會(huì)讓你感覺(jué)到驚艷。
在人工智能領(lǐng)域,形態(tài)創(chuàng)新并不重要,基礎(chǔ)形態(tài)既定,如人機(jī)對(duì)話、文生圖、文生視頻等這些基礎(chǔ)形態(tài)大家很早就暢想過(guò),問(wèn)題在于效果達(dá)不到,有一天效果達(dá)到了、才是一個(gè)大的飛躍。比如在人機(jī)對(duì)話這個(gè)基礎(chǔ)形態(tài)上,可以做導(dǎo)購(gòu)、推薦、營(yíng)銷、客服、助理等等,這些則被稱作衍生形態(tài)。但如果基礎(chǔ)形態(tài)效果不到位,衍生形態(tài)更加不到位。
ChatGPT 也一樣,人機(jī)對(duì)話這件事并不新鮮,大家之所以對(duì) ChatGPT 覺(jué)得驚艷,它的效果是有目共睹的。
同理,今天我們?nèi)タ紤]多模態(tài)的應(yīng)用意義并不大,因?yàn)槎嗄B(tài)大模型的涌現(xiàn)還未實(shí)現(xiàn),當(dāng)多模態(tài)可用深度理解意圖,隨時(shí)可控地對(duì)視覺(jué)、語(yǔ)言等各方面信息做融合,基礎(chǔ)形態(tài)實(shí)現(xiàn)了,更多衍生形態(tài)自然會(huì)出現(xiàn)。
AI 科技評(píng)論:前面我們談到了它(多模態(tài)大模型)在技術(shù)角度的難度,從產(chǎn)品方向來(lái)看,目前落地的難度在哪里?
何曉冬:主要在多模態(tài)大模型它的可控性上,特別是對(duì)細(xì)節(jié)的理解和可控。這一塊是我認(rèn)為比較重要的。
比如 Midjourney 畫(huà)圖,雖然比自己畫(huà)的要好,可能整體表現(xiàn)很好,但在刻畫(huà)手指等細(xì)節(jié)上還不夠好,往往需要生成很多張、從當(dāng)中挑出一張,還是有這個(gè)過(guò)程。
再舉個(gè)例子,現(xiàn)在大家所說(shuō)的 Prompt,在我看來(lái)這正是一個(gè) bug、或者說(shuō)它不足的地方,是技術(shù)還有缺陷的一個(gè)體現(xiàn),就是因?yàn)槟P蛯?duì)語(yǔ)言的理解還不夠好,因此才需要人去練“咒語(yǔ)”,隨著技術(shù)進(jìn)步,練“咒語(yǔ)”這件事情將不存在。
AI 科技評(píng)論:現(xiàn)有的產(chǎn)品,對(duì)于多模態(tài)大模型的進(jìn)步是否有 ChatGPT “模型-用戶數(shù)據(jù)-模型迭代-用戶數(shù)據(jù)”的飛輪式迭代?
何曉冬:這個(gè)方式是對(duì)的,并且我也認(rèn)為,下一個(gè)多模態(tài)大模型可能還是會(huì)按照這樣的方式。
首先,在技術(shù)上能看到一個(gè)突破性的革命,其次在產(chǎn)品形態(tài)上會(huì)有一個(gè)可用的產(chǎn)品發(fā)布出來(lái),真正地走入公眾, 只有走到 Public,這個(gè)數(shù)據(jù)才真正得以解放。這部分的數(shù)據(jù)并非花錢標(biāo)注就可以得到,標(biāo)注只是第二步的。我們所說(shuō)的數(shù)據(jù)往往包括原始數(shù)據(jù)和數(shù)據(jù)標(biāo)注,標(biāo)注可通過(guò)找人、花錢就可以把這件事完成,真正困難的是原始數(shù)據(jù)的獲得。只有讓大家一起用、才能實(shí)現(xiàn)真實(shí)可靠的原始數(shù)據(jù)獲取。一個(gè)術(shù)語(yǔ),就叫做數(shù)據(jù)的均衡采樣。將整個(gè)地球的所有用戶和用戶活動(dòng)視為一個(gè)空間,當(dāng)你希望你的模型可以服務(wù)這么多人,那么相對(duì)應(yīng)的數(shù)據(jù)也需要對(duì)目標(biāo)用戶空間比較均衡的采樣。為了做到這一點(diǎn),最好辦法就是先發(fā)布一個(gè)變革性的產(chǎn)品、讓全部人一起使用它。
AI 科技評(píng)論:這個(gè)范式在 2016 年您和團(tuán)隊(duì)做 CaptionBot 時(shí)就已經(jīng)歷過(guò)了,為什么當(dāng)時(shí) CaptionBot 沒(méi)能成為今天的 ChatGPT ?
何曉冬:我們其實(shí)走的過(guò)程其實(shí)特別像 ChatGPT:最開(kāi)始有篇論文發(fā)表在 2015 年,緊接著 2016 年初做成一個(gè)公眾可用的產(chǎn)品,把它發(fā)布出來(lái)。
由于論文往往是在一個(gè)有局限的學(xué)術(shù)數(shù)據(jù)里,規(guī)模、覆蓋各方面比較局限性,通用性存在不足,如果希望它能夠走得更遠(yuǎn),最好的辦法就是把它做成一個(gè)新的形態(tài)、打造一個(gè)產(chǎn)品,對(duì)全世界通用,從學(xué)術(shù)中僅靠一些學(xué)生去收集、標(biāo)注數(shù)據(jù),轉(zhuǎn)變?yōu)槿虬偃f(wàn)級(jí)、千萬(wàn)級(jí)的用戶成為數(shù)據(jù)反饋的人。這產(chǎn)品可能很粗糙,正如當(dāng)初我們的 CaptionBot 只是一個(gè)APP,今天的 ChatGPT 也很粗糙、只是一個(gè)對(duì)話框,但是粗糙沒(méi)關(guān)系,只要大家覺(jué)得真的有意思、有用,很快就能形成爆品。通過(guò)用戶使用的數(shù)據(jù)可以用于進(jìn)一步提升算法、模型,隨之進(jìn)入第三個(gè)階段、即嚴(yán)肅的產(chǎn)品使用階段。
這“三步走”我們?cè)谄吣昵耙呀?jīng)走過(guò),但當(dāng)初走得有點(diǎn)慢,最終沒(méi)能夠做到一定的服務(wù)規(guī)模,是今天我感覺(jué)有點(diǎn)遺憾的地方?,F(xiàn)在微軟快多了,像去年底 ChatGPT 出來(lái),到現(xiàn)在才半年,GPT 已經(jīng)全面進(jìn)入微軟各大核心產(chǎn)品線。
其實(shí)這次 OpenAI 展現(xiàn)出來(lái)的一個(gè)新趨勢(shì),即是產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新是不分家的。產(chǎn)品的定義是,讓普通大眾可以直接使用的,首先第一步是先用起來(lái)。在這個(gè)層面上來(lái)說(shuō),AlphaGo 不是一個(gè)產(chǎn)品,而 ChatGPT 是。
AI 科技評(píng)論:一個(gè)不得不直視的現(xiàn)實(shí)是,即使在語(yǔ)言大模型上,中國(guó)的多個(gè)大模型產(chǎn)品的智能水平跟國(guó)外也仍有一定差距。國(guó)內(nèi)語(yǔ)言大模型的研究局限性,能否給多模態(tài)大模型的研究新征程帶來(lái)啟發(fā)?
何曉冬:在跟用戶溝通交流中學(xué)習(xí)智能。這也是為什么我們對(duì) ChatGPT 會(huì)看得更深一點(diǎn)。
ChatGPT 確實(shí)很厲害,但它的厲害之處在于它的廣度上,它的深度其實(shí)并不夠。例如金融領(lǐng)域的一些項(xiàng)目,就無(wú)法直接使用 ChatGPT 來(lái)解決問(wèn)題,需要與具體的金融知識(shí)等行業(yè) Know-How 相結(jié)合,同時(shí)還要經(jīng)過(guò)實(shí)戰(zhàn)磨練。
比如對(duì)話可以分為合作性對(duì)話和對(duì)抗性對(duì)話,其中,合作性對(duì)話指用戶愿意配合完成的對(duì)話,例如客服等。而對(duì)抗性對(duì)話則包括了談判等存在一定博弈與對(duì)立的內(nèi)容。而越高價(jià)值的對(duì)話,往往博弈性越強(qiáng),對(duì)機(jī)器智能要求也越高,這都是在技術(shù)與實(shí)際場(chǎng)景結(jié)合中所得到的認(rèn)知和經(jīng)驗(yàn)。
今天的 ChatGPT 已經(jīng)不再考慮圖靈測(cè)試,它甚至?xí)嬖V你:“我是個(gè)語(yǔ)言模型,你有什么要問(wèn)的?”它不需要欺騙人,因?yàn)樗兰幢阄沂且粋€(gè)機(jī)器、你也會(huì)跟我對(duì)話,這就是技術(shù)進(jìn)步的一個(gè)重要體現(xiàn),也是其開(kāi)始變成生產(chǎn)力的一個(gè)重要體現(xiàn)。
多模態(tài)大模型的研究需要離落地更近,我認(rèn)為,這對(duì)科學(xué)而言是一種促進(jìn)、而非限制。計(jì)算機(jī)作為典型的應(yīng)用科學(xué),很多重要的課題是在應(yīng)用中被反向牽引,因?yàn)榇罅康膽?yīng)用需求,從而促生更多變量和經(jīng)驗(yàn)體系的發(fā)展。
AI 科技評(píng)論:對(duì)比多模態(tài)研究的早期階段,現(xiàn)在的多模態(tài)大模型有哪些革命性的進(jìn)步?
何曉冬:以數(shù)字人為例,它的突破是很大的?;氐?2014 年,當(dāng)時(shí)的數(shù)字人幾乎不可用,到近兩年才真正可用,當(dāng)中關(guān)于數(shù)字人形象生成控制,包括形象層和語(yǔ)言層的對(duì)齊等方面,都離不開(kāi)多模態(tài)技術(shù)的參與。
但多模態(tài)大模型的 ChatGPT 時(shí)刻還沒(méi)到來(lái),可能還需要點(diǎn)時(shí)間,或者需要更多的數(shù)據(jù)、創(chuàng)新的算法,暫時(shí)還沒(méi)有爆發(fā)。
AI 科技評(píng)論:如果說(shuō) ChatGPT 可能已經(jīng)是語(yǔ)言大模型的 AGI 終極形態(tài),那么多模態(tài)大模型的 AGI 產(chǎn)品形態(tài)應(yīng)該是什么樣的?您對(duì)多模態(tài)的研究設(shè)想是怎樣的?
何曉冬:回到本源,當(dāng)我們說(shuō)通用人工智能時(shí),往往是以人為標(biāo)桿的,我們也希望所有的產(chǎn)品是為人而服務(wù)的,在未來(lái)所有的 AGI 藍(lán)圖里,人是一個(gè)核心存在。我們永遠(yuǎn)不希望看到人被邊緣化,如果人被邊緣化,那么這個(gè)世界對(duì)人類沒(méi)意義。
因此,多模態(tài)既是一個(gè)路徑,也是一個(gè)要求。
一個(gè)路徑是指,人被視為這個(gè)世界上最聰明的智能體,如果想打造一個(gè)像人一樣聰明的 AGI ,就需要向人學(xué)習(xí),通過(guò)多模態(tài)方式來(lái)進(jìn)行知識(shí)融合、知識(shí)獲取,這是讓機(jī)器走向 AGI 的必經(jīng)之路。
另一方面,多模態(tài)可能也是個(gè)要求。未來(lái)人跟機(jī)器打交道時(shí),必然是通過(guò)語(yǔ)言、視覺(jué)、語(yǔ)音跟機(jī)器進(jìn)行溝通的,所以機(jī)器也必須能夠理解相應(yīng)的信息,否則機(jī)器就無(wú)法服務(wù)人。
因此,多模態(tài)既是 AGI 的必經(jīng)之路,或許也是對(duì) AGI 的一個(gè)要求。
(雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。