丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給黃楠
發(fā)送

0

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

本文作者: 黃楠 2023-06-08 21:00
導(dǎo)語:通往 AGI 終局,多模態(tài)是必經(jīng)之路。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

在關(guān)于 ChatGPT 的討論中,“數(shù)據(jù)飛輪” 被視為是經(jīng) ChatGPT 所驗(yàn)證的變革引擎,是大模型智能飛躍中的關(guān)鍵一環(huán):向用戶開放模型,建立用戶真實(shí)數(shù)據(jù)反饋與模型迭代間的飛輪,用戶反饋數(shù)據(jù)越多,模型的迭代速度也越快。

但很少有人知道,這一路線早在七年前,何曉冬與他當(dāng)時所在的微軟雷德蒙德研究院深度學(xué)習(xí)技術(shù)中心的團(tuán)隊同事就已經(jīng)走過。

那是在 2016 年 3 月,納德拉(微軟CEO)帶著一個名為 CaptionBot 的 AI 應(yīng)用產(chǎn)品亮相微軟 Build 大會,CaptionBot 跟全球用戶見面僅一星期,用戶量就突破百萬。

同樣是先有一篇論文,在技術(shù)上取得突破,再推出一個產(chǎn)品讓用戶參與使用,但過去的 CaptionBot 最終沒能成為今天的 ChatGPT。在 2023 小蠻腰科技大會暨 AIGC 人工智能峰會接受 AI 科技評論的采訪時,何曉冬表達(dá)了自己的遺憾。

新機(jī)遇在七年后的大模型時代再次到來。

在過去五年的 CVPR 發(fā)表論文排序中,排名前二十的論文里,與多模態(tài)研究相關(guān)的工作僅一篇。這個工作由何曉冬帶領(lǐng)團(tuán)隊完成,論文所提出的“Bottom-up and top-down attention”注意力機(jī)制,用于跨模態(tài)的語言和圖像信息在語義層次的對齊研究,單篇引用量已超過 4000 次。

Sam Altman 在談及 AGI 的前景中,提出了必須要共同進(jìn)化,才能達(dá)到通用智能,實(shí)現(xiàn)通用智能的要素之一,正是語言大模型令人們?yōu)橹缘摹坝楷F(xiàn)”時刻。多模態(tài)的“涌現(xiàn)”暫未出現(xiàn),何曉冬認(rèn)為,在多模態(tài)大模型的技術(shù)探索路線中必須回答三個問題,首先就是決定在哪個層次做多模態(tài)信息的融合。

何曉冬給出的答案是,在語義層次的對齊、融合。

而在技術(shù)之外,ChatGPT 為人稱道的“極致工程化”,將產(chǎn)品在變革中所扮演的角色推向了一個新的高度。

正如七年前 CaptionBot 第一次邁進(jìn)的“河”、以及 ChatGPT 第二次踏進(jìn)“同一條河”,何曉冬相信多模態(tài)大模型也會按照同樣的方式,先取得突破性的技術(shù)革命、發(fā)布一個粗糙但可用的產(chǎn)品、真正走入用戶?!爱a(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新不分家,不管多粗糙、首先第一步是先用起來。”

大模型會帶來AI技術(shù)的普惠,而不是加劇技術(shù)鴻溝。當(dāng)大模型具備了信息壓縮、知識網(wǎng)絡(luò)構(gòu)建、邏輯判斷與推理等良好能力之后,下一個臺階的踏步高度就會降低。此時,產(chǎn)業(yè)受益之處就體現(xiàn)出來了,產(chǎn)業(yè)利潤低洼地的企業(yè),以及供應(yīng)鏈上地位低的中小企業(yè)都有機(jī)會用上“大模型”。如此一來,不僅不會加大數(shù)字和技術(shù)鴻溝,還會產(chǎn)生普惠價值。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

何曉冬在西雅圖華盛頓湖


做多模態(tài)大模型要回答的三個問題


AI 科技評論:2020 年的 GAIR 大會上,您就談到多模態(tài)大模型的愿景。今年 3 月 GPT-4 發(fā)布,果然是多模態(tài)大模型。您能率先預(yù)見多模態(tài)的趨勢,是否有過往研究經(jīng)歷的背書?

何曉冬:我是 2014 年最早開始做多模態(tài) AI 的那批人之一。

多模態(tài)有它的歷史。在深度學(xué)習(xí)之前,多模態(tài)有過一些工作,但整體都比較粗糙。語言和視覺信號的處理方式不同,以前“生搬硬湊”放在一塊做出來的效果并不好,例如一個簡單“看圖說話”的應(yīng)用,把一張視覺圖片用語言描述出來,深度學(xué)習(xí)前采用的方法是,先做一些物體識別,得到相應(yīng)的關(guān)鍵詞,再把詞拼成一個句子。在這個過程中,由于這些圖像是以一個像素、語言以一個詞的形式存在,難以將語言和圖像對應(yīng)起來。

真正開始突破是在 2014 年,微軟發(fā)布了一個名為 MS COCO 的數(shù)據(jù)集。跟 ImageNet 不一樣,ImageNet 用作識別,圖片主要以單個物體的形式存在,例如一個茶壺、一只小貓,內(nèi)容太復(fù)雜容易出現(xiàn)歧義,增加識別難度。而 MS COCO 則相反,一開始就是瞄準(zhǔn)了視覺信號在語義層次的描述,因此數(shù)據(jù)集中的物體更豐富,同時也會在標(biāo)注時讓人用一句話來描述內(nèi)容。

于是在 2014 年的時候,我開始想如何把語義實(shí)現(xiàn)跨模態(tài)理解。舉個例子,當(dāng)我們看到一個茶壺、以及“茶壺”這個詞時,在我們的腦海中反映的是同一個意思,以概念的形式存在,因此我們認(rèn)為,或許可以語義層次嘗試和完成多模態(tài)智能的統(tǒng)一。

巧合的是,2013 年,我們曾發(fā)表過一篇深度結(jié)構(gòu)化語義模型DSSM(Deep Structured Semantic Models)的工作。當(dāng)初這個工作發(fā)布時只針對單一模態(tài)、即語言,跨模態(tài)的想法出現(xiàn)后,這項(xiàng)工作也從 2014 年開始、被我們用在做語言加視覺的語義對齊建模,提出了語言-視覺深度多模態(tài)語義模型(DMSM)。

這項(xiàng)工作發(fā)表在 CVPR 2015,同時我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰(zhàn)賽,比賽時給出一張圖片,由 AI 模型去生成對應(yīng)的語義描述(圖生文),最后讓人當(dāng)裁判來判斷描述是否準(zhǔn)確,就像做圖靈測試一樣。最后我們的模型得到那場比賽的第一名,與谷歌并列第一,這也是真正意義上第一次把多模態(tài)這件事比較成功地做起來了。

因此,多模態(tài)智能可以追溯到 2014 年,我的研究方向也在這個過程中向多模態(tài)轉(zhuǎn)移,從原本只做 NLP 、又往視覺的方向進(jìn)一步擴(kuò)展。

期間我們數(shù)次想將其做成一個產(chǎn)品,到 2016 年年初這個想法得以實(shí)現(xiàn),我們推出了一個名為 CaptionBot 的 AI 產(chǎn)品。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

何曉冬團(tuán)隊在給納德拉等展示 CaptionBot

像今天的 ChatGPT 一樣,CaptionBot 也是一個使用很簡單的產(chǎn)品,通過下載 APP,使用手機(jī)拍照后,CaptionBot 可以精準(zhǔn)對照片內(nèi)容進(jìn)行文字描述。納德拉在微軟 Build 大會上發(fā)布后,僅一星期用戶量就突破百萬。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

CaptionBot 應(yīng)用相關(guān)報道

在 Build 大會上發(fā)布后,我去硅谷參加英偉達(dá)的 GTC 大會時,老黃(黃仁勛)也對 CaptionBot 很感興趣,還當(dāng)場測試了一張。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

“Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture”— By CaptionBot

2017 年初,在 CaptionBot 發(fā)布了一年之后,基于期間用戶使用的交互反饋,我們進(jìn)一步提升了它的技術(shù)水平,并把這個產(chǎn)品集成進(jìn)了Office 產(chǎn)品家族當(dāng)中去。Office 是微軟公司最重要的產(chǎn)品線之一,這也意味著這個 AI 應(yīng)用的效果達(dá)到了一個新的水準(zhǔn)。

而技術(shù)研究還在進(jìn)步,在多模態(tài)大模型研究中,一個重要的基石就在于如何讓語言和視覺信號進(jìn)行融合和對齊。在 2018 年,受人類的視覺注意力機(jī)制啟發(fā),我們進(jìn)一步提出了一個新的多模態(tài)注意力機(jī)制“Bottom-up and top-down attention”,為語言和圖像信息在語義層次的對齊提出了一個基本框架,某種意義上也奠定了跨模態(tài)信息處理的基礎(chǔ)。(截至發(fā)稿前,該論文的引用次數(shù)已超過4128次。)

AI 科技評論:是什么令您在當(dāng)時就感知到,多模態(tài)會是一個好的方向?

何曉冬:這個原因很樸素。以前我們經(jīng)常說想做 AGI(通用人工智能),而 AGI 的一個模板就是人本身。

人的智能行為是多模態(tài)的,比如說我們面對面聊天時、不會是閉著眼睛聊,視覺和語言是對應(yīng)的。因此,真正的通用人工智能一定是多模態(tài)的。只是以前局限于技術(shù)能力不足,單模態(tài)都處理不好,多模態(tài)就不處理了。

AI 科技評論:相比語言大模型(單一模態(tài)),多模態(tài)大模型的研究難度是否會更高?

何曉冬:會比較難做。在每一個層次,多模態(tài)都會比單模態(tài)更挑戰(zhàn),進(jìn)入大模型時代,多模態(tài)大模型肯定會比單模態(tài)大模型更挑戰(zhàn)。

當(dāng)初我們雖然做多模態(tài)模型,但相對來說模型規(guī)模偏小,沒有做到現(xiàn)在的單模態(tài)大語言模型那么大的規(guī)模。那時候有個一億參數(shù)就覺得好像不錯了,到現(xiàn)在都是百億、千億的參數(shù)。但我們也看到,今天做大模型相比當(dāng)年做大模型,更挑戰(zhàn)的同時,合作也更加容易、視野更加開闊了。

AI 科技評論:從技術(shù)角度來看,主要難在什么地方?

何曉冬:多模態(tài)做大模型的話,有幾個技術(shù)難點(diǎn)跟大家探討。

第一個問題是,在哪個層次上、做多模態(tài)大模型的目的是什么?

這個目的并非是令語言模型可以具備多模態(tài)功能,如果僅出于這一目的,我們可以通過簡單調(diào)用另一個模型實(shí)現(xiàn)。例如跟一個語言模型說幫我畫畫,那么它可以調(diào) Midjourney 把圖像畫出來,這種屬于比較淺層的多模態(tài)。從任務(wù)層次上看,好像可以完成很多任務(wù),但在模型層次上,二者是分開、割裂的模型,也無法看到多模態(tài)級別的智能涌現(xiàn)。

大模型之所以火,不是因?yàn)樗?,而是因?yàn)榭吹搅怂挠楷F(xiàn)。此前的機(jī)器學(xué)習(xí)算法,往往是模型規(guī)模變大后、邊際效果提升越來越小,但現(xiàn)在人們發(fā)現(xiàn),模型大小過千億后,它的邊際效益是遞增的,突然間效果就上去了,這被稱為智能的“涌現(xiàn)”,因此,涌現(xiàn)是大模型最令人著迷的地方。

當(dāng)我們希望看到多模態(tài)層次的涌現(xiàn)時,意味著我們需要將模型在底層去進(jìn)行語言和視覺的結(jié)合,只有在最底層的結(jié)合才能出現(xiàn)涌現(xiàn)。也就是說,只有這個模型是稠密的模型,才會出現(xiàn)涌現(xiàn)的情況。

所以第一個問題就是,大模型做多模態(tài),如果目標(biāo)是涌現(xiàn),那必須要做稠密的多模態(tài)大模型。

第二個問題是,當(dāng)模型變聰明時,是在哪一個層次開始變得聰明?

我們常說一圖勝千言,所以相對于“圖生文”,“文生圖”是一個更挑戰(zhàn)性的多模態(tài)任務(wù)。給機(jī)器一兩句話的描述,令其將圖形生成,需要機(jī)器發(fā)揮極大的想象空間。

例如用“文生圖”模型畫一只鳥,面對粗略的描述,AI 可以進(jìn)行自動細(xì)節(jié)補(bǔ)充,并且不僅是全局對得上,局部也要對得上。難點(diǎn)在于,原始視覺信號只是像素點(diǎn),而語言信號最原始就是一個單詞、一個字符,二者難以對齊,層次也不一樣,所以要找到一個合適的層次,把多模態(tài)信息得以對齊。現(xiàn)在看起來,如果多模態(tài)模型要變得聰明,將會出現(xiàn)在語義層次。這個文字驅(qū)動視覺內(nèi)容生成的工作我們在 2017 年底微軟的“顛覆性技術(shù)展望”(Disruptive Technology Review)會上也給納德拉及管理層做了專題報告。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

2017 年何曉冬及同事用“文生圖” AttnGAN 生成的小鳥

AI 科技評論:語言模型堆參數(shù)的殺傷力是智能涌現(xiàn),那么,在多模態(tài)大模型中,堆參數(shù)的意義是什么?在多模態(tài)里,大模型比小模型強(qiáng)在哪?

何曉冬:參數(shù)也很關(guān)鍵,我覺得很可能需要多種規(guī)模參數(shù)的模型。

當(dāng)我們回答“做什么模型”的第一個問題后,如果你希望做個能涌現(xiàn)的模型,那么就必須是一個稠密的大模型。

第二個問題是在哪個層次的多模態(tài)融合?視覺和語言二者層次不一樣,所以要找到一個合適的層次,把多模態(tài)信息得以對齊,再期望它能夠涌現(xiàn)。現(xiàn)在看起來可能會出現(xiàn)在語義層次,但具體怎么樣,還需要探索。

到第三個問題,就是模型結(jié)構(gòu)和模型大小。

大模型的定義還是很虛的。比如什么叫“大”?千億大了,那百億算不算大,如果是在三年前,一個十億參數(shù)的模型也能叫“大”。

由于視覺信號也是復(fù)雜的,因此我認(rèn)為多模態(tài)的模型大小還需要進(jìn)一步增加。

這幾個問題有些是正在做的,有些可能還在探索。


GPT-4 的創(chuàng)新是對話,還不在多模態(tài)


AI 科技評論:從 GPT-3 到 GPT-4,GPT-4 比 GPT-3 強(qiáng)在哪里?其多模態(tài)的技術(shù)底層有哪些創(chuàng)新?

何曉冬:我認(rèn)為 GPT-4 相比 GPT-3 ,最大的創(chuàng)新其實(shí)在于對話,還沒有在多模態(tài)層次。

GPT-4 在語言模型上、在知識上做得更深了。有人對比過,例如面對同樣的問題,GPT-4 的正確率比 GPT-3.5 要好很多,GPT-3 的效果則差得更遠(yuǎn),因?yàn)?GPT-3 并不具備對話能力,只有生成,對問題各方面的感知、意圖理解等做得并不好。現(xiàn)在 GPT-4 已經(jīng)可以直接詢問多個問題,且通過多輪對話、它得以持續(xù)記住過去的歷史。

AI 科技評論:目前業(yè)內(nèi)說“多模態(tài)大模型”,主要講語音、文本與圖像三種模態(tài)。但目前來說,是否主要是文本與圖像兩種模態(tài)的大模型?

何曉冬:語音也有。我們在 2020 年曾在 IEEE JSTSP 辦過一個多模態(tài)的智能專刊,除了我們自己做的一個綜述外,還請到了業(yè)界的比較資深、前沿的學(xué)者進(jìn)行投稿,其中就包括了語音到圖像、語音聲調(diào)等等,因?yàn)檎Z音不光只是文字語音,還覆蓋聲調(diào)、語氣等信息。但不可否認(rèn)的是,至少在早年,多模態(tài)確實(shí)是一個不那么熱門的話題,一方面是由于技術(shù)難度比較大,另一方面與天然的領(lǐng)域問題有關(guān),更多學(xué)者還是專注在一個領(lǐng)域上做研究,跨領(lǐng)域的比較少。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

??溄樱篽ttps://ieeexplore.ieee.org/document/9126279

AI 科技評論:此前有研究表明,在單一英語數(shù)據(jù)集上訓(xùn)練的語言模型,雖然沒有經(jīng)過其他語種的訓(xùn)練,但在執(zhí)行其他語言(如中文、日語)的任務(wù)時性能也有提升。那么,在多模態(tài)里,一種模態(tài)的性能飛躍,是否會對其他模態(tài)的智能水平也有所提升?例如,語言模態(tài)的進(jìn)步,對語音、圖像的智能有影響嗎?

何曉冬:這是有可能的。現(xiàn)在只是語言模態(tài)的飛躍實(shí)現(xiàn)了,視覺還沒有完全起來,因此,一個模態(tài)帶動各種模態(tài)涌現(xiàn),這也是大家在探索的方向。

舉個例子,現(xiàn)在大家拿“視覺+語言”來做,一方面是因?yàn)檫@部分?jǐn)?shù)據(jù)比較多,另一方面則是因?yàn)橐曈X和語言最重要。因此,如果這個方向的探索能夠成功,最終不僅是視覺和語言,更是能提供很多洞察——怎樣做跨模態(tài)、多模態(tài)的涌現(xiàn)。比如說會不會用 Transformer 架構(gòu)也是一個未知數(shù),不一定用 Transformer,但也可能跟 Transformer 相關(guān)。只是現(xiàn)在還沒看到,需要等待最后出來的是什么,但基礎(chǔ)性的工作已經(jīng)在探索了。

AI 科技評論:在未來的多模態(tài)大模型中,是否會存在一種模態(tài)占主宰地位、其他模態(tài)占附庸地位?如文生圖,現(xiàn)在是文字主導(dǎo),而后生成圖像。

何曉冬:從技術(shù)角度來說,不存在說誰主導(dǎo)誰附庸。比如說“文生圖”和“圖生文”,我們?nèi)绾闻袛噙@當(dāng)中是文字比圖像重要、還是圖像比文字重要?因?yàn)槎己苤匾?/p>

當(dāng)然,有的人會認(rèn)為,在圖像或者語音識別是感知層面的智能,“感知智能”比較基礎(chǔ),因此被視為是比較低端的智能,很多動物也具備感知智能。但在語言層面,一般認(rèn)為其是“認(rèn)知智能”,因?yàn)槲淖指w現(xiàn)人具備的高級的智能,這也是圖靈所提出的,要通過對話、而不是識別圖片的方式,來判斷機(jī)器是否具有智能。

總體而言,或許文字可能更深奧一些,但也只能稱為從基礎(chǔ)智能到高層智能,并不能說哪個模態(tài)要比哪個模態(tài)更重要。


多模態(tài)的“ChatGPT 時刻”需要產(chǎn)品


AI 科技評論:您之前說過一點(diǎn),讓我們印象特別深刻:ChatGPT 的啟示是“產(chǎn)品形態(tài)驅(qū)動技術(shù)研究”。那么,目前主流的多模態(tài)應(yīng)用有哪些?

何曉冬:應(yīng)用比較多的是在數(shù)字人、數(shù)字員工等,數(shù)字人天然是個多模態(tài)的應(yīng)用。

AI 科技評論:追逐的過程中,更多是技術(shù)上的飛躍,還是產(chǎn)品上的創(chuàng)新?

何曉冬:應(yīng)用的形式一般不會讓你感覺特別稀奇,但應(yīng)用的效果會讓你感覺到驚艷。

在人工智能領(lǐng)域,形態(tài)創(chuàng)新并不重要,基礎(chǔ)形態(tài)既定,如人機(jī)對話、文生圖、文生視頻等這些基礎(chǔ)形態(tài)大家很早就暢想過,問題在于效果達(dá)不到,有一天效果達(dá)到了、才是一個大的飛躍。比如在人機(jī)對話這個基礎(chǔ)形態(tài)上,可以做導(dǎo)購、推薦、營銷、客服、助理等等,這些則被稱作衍生形態(tài)。但如果基礎(chǔ)形態(tài)效果不到位,衍生形態(tài)更加不到位。

ChatGPT 也一樣,人機(jī)對話這件事并不新鮮,大家之所以對 ChatGPT 覺得驚艷,它的效果是有目共睹的。

同理,今天我們?nèi)タ紤]多模態(tài)的應(yīng)用意義并不大,因?yàn)槎嗄B(tài)大模型的涌現(xiàn)還未實(shí)現(xiàn),當(dāng)多模態(tài)可用深度理解意圖,隨時可控地對視覺、語言等各方面信息做融合,基礎(chǔ)形態(tài)實(shí)現(xiàn)了,更多衍生形態(tài)自然會出現(xiàn)。

AI 科技評論:前面我們談到了它(多模態(tài)大模型)在技術(shù)角度的難度,從產(chǎn)品方向來看,目前落地的難度在哪里?

何曉冬:主要在多模態(tài)大模型它的可控性上,特別是對細(xì)節(jié)的理解和可控。這一塊是我認(rèn)為比較重要的。

比如 Midjourney 畫圖,雖然比自己畫的要好,可能整體表現(xiàn)很好,但在刻畫手指等細(xì)節(jié)上還不夠好,往往需要生成很多張、從當(dāng)中挑出一張,還是有這個過程。

再舉個例子,現(xiàn)在大家所說的 Prompt,在我看來這正是一個 bug、或者說它不足的地方,是技術(shù)還有缺陷的一個體現(xiàn),就是因?yàn)槟P蛯φZ言的理解還不夠好,因此才需要人去練“咒語”,隨著技術(shù)進(jìn)步,練“咒語”這件事情將不存在。

AI 科技評論:現(xiàn)有的產(chǎn)品,對于多模態(tài)大模型的進(jìn)步是否有 ChatGPT “模型-用戶數(shù)據(jù)-模型迭代-用戶數(shù)據(jù)”的飛輪式迭代?

何曉冬:這個方式是對的,并且我也認(rèn)為,下一個多模態(tài)大模型可能還是會按照這樣的方式。

首先,在技術(shù)上能看到一個突破性的革命,其次在產(chǎn)品形態(tài)上會有一個可用的產(chǎn)品發(fā)布出來,真正地走入公眾, 只有走到 Public,這個數(shù)據(jù)才真正得以解放。這部分的數(shù)據(jù)并非花錢標(biāo)注就可以得到,標(biāo)注只是第二步的。我們所說的數(shù)據(jù)往往包括原始數(shù)據(jù)和數(shù)據(jù)標(biāo)注,標(biāo)注可通過找人、花錢就可以把這件事完成,真正困難的是原始數(shù)據(jù)的獲得。只有讓大家一起用、才能實(shí)現(xiàn)真實(shí)可靠的原始數(shù)據(jù)獲取。一個術(shù)語,就叫做數(shù)據(jù)的均衡采樣。將整個地球的所有用戶和用戶活動視為一個空間,當(dāng)你希望你的模型可以服務(wù)這么多人,那么相對應(yīng)的數(shù)據(jù)也需要對目標(biāo)用戶空間比較均衡的采樣。為了做到這一點(diǎn),最好辦法就是先發(fā)布一個變革性的產(chǎn)品、讓全部人一起使用它。

AI 科技評論:這個范式在 2016 年您和團(tuán)隊做 CaptionBot 時就已經(jīng)歷過了,為什么當(dāng)時 CaptionBot 沒能成為今天的 ChatGPT ?

何曉冬:我們其實(shí)走的過程其實(shí)特別像 ChatGPT:最開始有篇論文發(fā)表在 2015 年,緊接著 2016 年初做成一個公眾可用的產(chǎn)品,把它發(fā)布出來。

由于論文往往是在一個有局限的學(xué)術(shù)數(shù)據(jù)里,規(guī)模、覆蓋各方面比較局限性,通用性存在不足,如果希望它能夠走得更遠(yuǎn),最好的辦法就是把它做成一個新的形態(tài)、打造一個產(chǎn)品,對全世界通用,從學(xué)術(shù)中僅靠一些學(xué)生去收集、標(biāo)注數(shù)據(jù),轉(zhuǎn)變?yōu)槿虬偃f級、千萬級的用戶成為數(shù)據(jù)反饋的人。這產(chǎn)品可能很粗糙,正如當(dāng)初我們的 CaptionBot 只是一個APP,今天的 ChatGPT 也很粗糙、只是一個對話框,但是粗糙沒關(guān)系,只要大家覺得真的有意思、有用,很快就能形成爆品。通過用戶使用的數(shù)據(jù)可以用于進(jìn)一步提升算法、模型,隨之進(jìn)入第三個階段、即嚴(yán)肅的產(chǎn)品使用階段。

這“三步走”我們在七年前已經(jīng)走過,但當(dāng)初走得有點(diǎn)慢,最終沒能夠做到一定的服務(wù)規(guī)模,是今天我感覺有點(diǎn)遺憾的地方?,F(xiàn)在微軟快多了,像去年底 ChatGPT 出來,到現(xiàn)在才半年,GPT 已經(jīng)全面進(jìn)入微軟各大核心產(chǎn)品線。

其實(shí)這次 OpenAI 展現(xiàn)出來的一個新趨勢,即是產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新是不分家的。產(chǎn)品的定義是,讓普通大眾可以直接使用的,首先第一步是先用起來。在這個層面上來說,AlphaGo 不是一個產(chǎn)品,而 ChatGPT 是。

AI 科技評論:一個不得不直視的現(xiàn)實(shí)是,即使在語言大模型上,中國的多個大模型產(chǎn)品的智能水平跟國外也仍有一定差距。國內(nèi)語言大模型的研究局限性,能否給多模態(tài)大模型的研究新征程帶來啟發(fā)?

何曉冬:在跟用戶溝通交流中學(xué)習(xí)智能。這也是為什么我們對 ChatGPT 會看得更深一點(diǎn)。

ChatGPT 確實(shí)很厲害,但它的厲害之處在于它的廣度上,它的深度其實(shí)并不夠。例如金融領(lǐng)域的一些項(xiàng)目,就無法直接使用 ChatGPT 來解決問題,需要與具體的金融知識等行業(yè) Know-How 相結(jié)合,同時還要經(jīng)過實(shí)戰(zhàn)磨練。

比如對話可以分為合作性對話和對抗性對話,其中,合作性對話指用戶愿意配合完成的對話,例如客服等。而對抗性對話則包括了談判等存在一定博弈與對立的內(nèi)容。而越高價值的對話,往往博弈性越強(qiáng),對機(jī)器智能要求也越高,這都是在技術(shù)與實(shí)際場景結(jié)合中所得到的認(rèn)知和經(jīng)驗(yàn)。

今天的 ChatGPT 已經(jīng)不再考慮圖靈測試,它甚至?xí)嬖V你:“我是個語言模型,你有什么要問的?”它不需要欺騙人,因?yàn)樗兰幢阄沂且粋€機(jī)器、你也會跟我對話,這就是技術(shù)進(jìn)步的一個重要體現(xiàn),也是其開始變成生產(chǎn)力的一個重要體現(xiàn)。

多模態(tài)大模型的研究需要離落地更近,我認(rèn)為,這對科學(xué)而言是一種促進(jìn)、而非限制。計算機(jī)作為典型的應(yīng)用科學(xué),很多重要的課題是在應(yīng)用中被反向牽引,因?yàn)榇罅康膽?yīng)用需求,從而促生更多變量和經(jīng)驗(yàn)體系的發(fā)展。

AI 科技評論:對比多模態(tài)研究的早期階段,現(xiàn)在的多模態(tài)大模型有哪些革命性的進(jìn)步?

何曉冬:以數(shù)字人為例,它的突破是很大的。回到 2014 年,當(dāng)時的數(shù)字人幾乎不可用,到近兩年才真正可用,當(dāng)中關(guān)于數(shù)字人形象生成控制,包括形象層和語言層的對齊等方面,都離不開多模態(tài)技術(shù)的參與。

但多模態(tài)大模型的 ChatGPT 時刻還沒到來,可能還需要點(diǎn)時間,或者需要更多的數(shù)據(jù)、創(chuàng)新的算法,暫時還沒有爆發(fā)。

AI 科技評論:如果說 ChatGPT 可能已經(jīng)是語言大模型的 AGI 終極形態(tài),那么多模態(tài)大模型的 AGI 產(chǎn)品形態(tài)應(yīng)該是什么樣的?您對多模態(tài)的研究設(shè)想是怎樣的?

何曉冬:回到本源,當(dāng)我們說通用人工智能時,往往是以人為標(biāo)桿的,我們也希望所有的產(chǎn)品是為人而服務(wù)的,在未來所有的 AGI 藍(lán)圖里,人是一個核心存在。我們永遠(yuǎn)不希望看到人被邊緣化,如果人被邊緣化,那么這個世界對人類沒意義。

因此,多模態(tài)既是一個路徑,也是一個要求。

一個路徑是指,人被視為這個世界上最聰明的智能體,如果想打造一個像人一樣聰明的 AGI ,就需要向人學(xué)習(xí),通過多模態(tài)方式來進(jìn)行知識融合、知識獲取,這是讓機(jī)器走向 AGI 的必經(jīng)之路。

另一方面,多模態(tài)可能也是個要求。未來人跟機(jī)器打交道時,必然是通過語言、視覺、語音跟機(jī)器進(jìn)行溝通的,所以機(jī)器也必須能夠理解相應(yīng)的信息,否則機(jī)器就無法服務(wù)人。

因此,多模態(tài)既是 AGI 的必經(jīng)之路,或許也是對 AGI 的一個要求。

(雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

對話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個問題

分享:
相關(guān)文章

主筆

傾聽科技和商業(yè)的故事,關(guān)注AI人物、技術(shù)變革。 | 微信:finfl26est
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說