0
人工智能底層思維的突破,關(guān)鍵在于對舊有邏輯和模式的一次超越。
囿于技術(shù)的局限,上一代 AI 商業(yè)落地只能聚焦于定制化的“點(diǎn)到點(diǎn)”服務(wù),AI 生產(chǎn)力的釋放有限,在算法和算力上卷無可卷的公司們,面臨的是硬件成本與技術(shù)創(chuàng)新的邊際效用遞減。
而在 ChatGPT、GPT-4 等為代表掀起的浪潮中,大模型解決多項(xiàng)任務(wù)的通用表現(xiàn),有效控制成本、提高收益,讓人們看到了 AI 大規(guī)模落地的可行性,愈加彰顯通用人工智能(AGI)的潛力。智能生產(chǎn)力得以釋放,人類將進(jìn)入到一個(gè)全新 AI 時(shí)代,就像工業(yè)革命一樣,大模型會(huì)被各行各業(yè)廣泛應(yīng)用,帶來生產(chǎn)力的巨大提升,并深刻改變我們的生活方式。
無論哪個(gè)行業(yè)、什么領(lǐng)域,大模型都是最火的話題,全新的起跑線上,大模型拉開 MaaS 時(shí)代序幕,任何人都想做點(diǎn)什么、也都可以做點(diǎn)什么。
為了匯聚全球頂級智慧,率先窺見 GPT 的未來發(fā)展圖景,雷峰網(wǎng)聯(lián)合新加坡 GAIR 研究院、世界科學(xué)出版社、科特勒咨詢集團(tuán)等機(jī)構(gòu),將于8月14日-15日在新加坡烏節(jié)大酒店,正式舉辦第七屆 GAIR 全球人工智能與機(jī)器人大會(huì)。
近日,雷峰網(wǎng)同黃學(xué)東、周伯文、何曉冬三位將出席 GAIR 2023 的大咖代表,圍繞大模型新范式下的技術(shù)革新與落地進(jìn)行了深度對話,經(jīng)過與他們的討論,我們更清晰地看見大模型所撼動(dòng)的競爭格局變換、以及持續(xù)迭代的市場脈絡(luò)。
黃學(xué)東,計(jì)算機(jī)領(lǐng)域首位中國大陸大學(xué)培養(yǎng)出來的美國雙院院士,現(xiàn)任 Zoom CTO,曾任微軟云與人工智能部首席 AI 技術(shù)官。
周伯文,清華大學(xué)電子工程系長聘教授、清華大學(xué)惠妍講席教授。原 IBM Research 美國總部人工智能基礎(chǔ)研究院院長,回國后曾任京東集團(tuán)高級副總裁、集團(tuán)技術(shù)委員會(huì)主席等職位。
何曉冬,京東集團(tuán)副總裁、大模型負(fù)責(zé)人。由何曉冬帶隊(duì)完成的“Bottom-up and top-down attention”注意力機(jī)制,用于跨模態(tài)的語言和圖像信息在語義層次的對齊研究。
從左至右依次為:黃學(xué)東、周伯文、何曉冬
以人為標(biāo)桿的科技躍進(jìn)中,我們期待大模型帶來 AI 普惠,縮窄“智能”時(shí)代的技術(shù)鴻溝。雷峰網(wǎng)總結(jié)了三位大咖代表對于大模型相關(guān)問題的主要觀點(diǎn),分享如下:
一場大模型的起跑
以 ChatGPT 為起點(diǎn),大模型技術(shù)研發(fā)和應(yīng)用探索進(jìn)入了新的階段。據(jù)不完全統(tǒng)計(jì),當(dāng)前國內(nèi)所發(fā)布的大模型產(chǎn)品已經(jīng)超過 80 個(gè),對應(yīng)不同行業(yè)、不同應(yīng)用場景,各個(gè)大廠和研究機(jī)構(gòu)紛紛加入資源競賽的大模型游戲,“百模大戰(zhàn)”正如火如荼地進(jìn)行。
雷峰網(wǎng):去年 11 月,ChatGPT 在各行各業(yè)引起震動(dòng),談?wù)劯髯詫ζ涞母惺堋?/span>
黃學(xué)東:OpenAI 所取得的歷史性突破,是真正將 “Chat”這件事給做成了。過去,陸奇在微軟的時(shí)候就曾強(qiáng)調(diào)了“Chat”的重要性,并提出了“Chat as service”概念,但受限于沒有足夠的突破性技術(shù),因此也無法支持項(xiàng)目的落地。
周伯文:2002 年,諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼在《思考,快與慢》一書中將人的思考模式劃分為兩種:系統(tǒng)1和系統(tǒng)2?!跋到y(tǒng)1”是快思考、直覺判斷;“系統(tǒng)2”指慢思考,需要完成大量的推理和計(jì)算。
人們過去認(rèn)為 AI 更適合做“系統(tǒng)1”的工作,比如人臉識(shí)別、質(zhì)檢等。但我堅(jiān)持認(rèn)為,AI 的價(jià)值應(yīng)在于“系統(tǒng)2”,即幫助人類更好地完成復(fù)雜的邏輯推理任務(wù)。
ChatGPT 的出現(xiàn)驗(yàn)證了 AI 在“系統(tǒng)2”層面的可行性,它意味著讓 AI 去發(fā)現(xiàn)新知識(shí),借助新知識(shí)幫助人類設(shè)計(jì)出更好的 AI,一個(gè)創(chuàng)造性飛輪就出現(xiàn)了。
何曉冬:在人工智能領(lǐng)域,形態(tài)創(chuàng)新并不重要,基礎(chǔ)形態(tài)既定,如人機(jī)對話、文生圖、文生視頻等這些基礎(chǔ)形態(tài)大家很早就暢想過,問題在于效果達(dá)不到,有一天效果達(dá)到了、才是一個(gè)大的飛躍。比如基于人機(jī)對話之上,可以做導(dǎo)購、推薦、營銷、客服等衍生形態(tài)。但如果基礎(chǔ)形態(tài)效果不到位,衍生形態(tài)更加不到位。
ChatGPT 也一樣,人機(jī)對話這件事并不新鮮,大家之所以對 ChatGPT 覺得驚艷,它的效果是有目共睹的。
雷峰網(wǎng):追溯大模型的源頭,離不開論文“Attention is All You Need”和 Transformer,它具體有哪些創(chuàng)新之處?
周伯文:Transformer 的核心亮點(diǎn),是自注意力機(jī)制和多頭機(jī)制。2017 年 6 月,谷歌大腦團(tuán)隊(duì)在“Attention is All You Need”中引入了自注意力機(jī)制和 Transformer 的概念,解決了模型長距離記憶的問題。OpenAI 受這篇論文影響頗深,在其出現(xiàn)第二天便立刻轉(zhuǎn)向 Transformer 架構(gòu)。
GPT 與 BERT 有著很大的不同:BERT 采用了既使用了從左到右的信息,也使用了從右到左的信息,即用未來信息去幫助模型學(xué)習(xí)如何表征,但 GPT 堅(jiān)持的是基于過去的信息預(yù)測下一個(gè)詞是什么,用更多數(shù)據(jù)對模型進(jìn)行更充分的訓(xùn)練時(shí),AGI 的可能性出現(xiàn)了。
可以說我們今天所看到的模型中有個(gè)“T”時(shí),它大概率代表了 Transformer 。
何曉冬:現(xiàn)階段雖然語言模態(tài)的飛躍實(shí)現(xiàn)了,但視覺還沒有完全起來。以一個(gè)模態(tài)帶動(dòng)各種模態(tài)涌現(xiàn)是目前大家都在探索的方向。許多人拿“視覺+語言”來做,一方面是因?yàn)檫@部分?jǐn)?shù)據(jù)比較多,另一方面則是因?yàn)橐曈X和語言最重要。因此,如果這個(gè)方向能成功,最終不僅是視覺和語言,還能提供很多洞察——怎樣做跨模態(tài)、多模態(tài)的涌現(xiàn)。
這個(gè)過程中,會(huì)不會(huì)用 Transformer 架構(gòu)也是一個(gè)未知數(shù),不一定用 Transformer,但也可能跟 Transformer 相關(guān)。只是現(xiàn)在還沒看到,需要等待,但基礎(chǔ)性工作已經(jīng)在探索了。
雷峰網(wǎng):如何看待 GPT 帶來了以自然語言為基礎(chǔ)的人同機(jī)器的交互方式?
何曉冬:GPT-4 相比 GPT-3,其最大的創(chuàng)新在于對話,還不是在多模態(tài)層次。
GPT-4 在語言模型上、在知識(shí)上做得更深了。有人對比過,例如面對同樣的問題,GPT-4 的正確率比 GPT-3.5 要好很多,GPT-3 的效果則差得更遠(yuǎn),因?yàn)?GPT-3 并不具備對話能力,只有生成,對問題各方面的感知、意圖理解等做得并不好?,F(xiàn)在 GPT-4 已經(jīng)可以直接詢問多個(gè)問題,且通過多輪對話、它得以持續(xù)記住過去的歷史。
周伯文:AI 的本質(zhì)就是與人類的協(xié)同和交互,它從交互中不斷學(xué)習(xí),進(jìn)而協(xié)同人類更好的解決問題。
生成式 AI 大爆發(fā)之后,通過與人協(xié)同交互進(jìn)行學(xué)習(xí)的 AI 會(huì)越來越強(qiáng)。AI 更好地發(fā)現(xiàn)新知識(shí),新知識(shí)繼而設(shè)計(jì)出更好的 AI 系統(tǒng),形成一個(gè)良性循環(huán),這種相互促進(jìn)的關(guān)系要求 AI 和人類的協(xié)同方式必須轉(zhuǎn)變。
此前我也提出了“3+1”研究方向,即以可信賴AI為研究基底和長期目標(biāo),以多模態(tài)表征交互、人機(jī)協(xié)同演繹、環(huán)境協(xié)同演化為研究著力點(diǎn),核心在于人機(jī)的協(xié)同共創(chuàng),實(shí)現(xiàn)人類幫助 AI 創(chuàng)新、AI 幫助人類創(chuàng)新的目標(biāo)。
追求創(chuàng)新,而非復(fù)制方法論
2014 年納德拉成為新一任微軟 CEO 后,立即提出了“移動(dòng)為先,云為先”(Mobile First,Cloud First)的戰(zhàn)略,微軟將業(yè)務(wù)重心轉(zhuǎn)向企業(yè)服務(wù)市場,集中所有力量向云端轉(zhuǎn)型,這為后續(xù)微軟云接入 ChatGPT 打下了根基。
2018 年,云智一體的融合在微軟內(nèi)部進(jìn)一步加深,黃學(xué)東、Yu-Ting Kuo 等資深副總裁級別的科學(xué)家以及相關(guān)團(tuán)隊(duì),從沈向洋旗下調(diào)任到微軟云體系。不久后,這支由 Joseph Sirosh 帶領(lǐng)的小分隊(duì)也重新被收編至微軟云體系,云和 AI 進(jìn)一步融合,微軟云更名微軟云與人工智能事業(yè)部,在組織上真正實(shí)現(xiàn)了云與智能的一體化。
此外后,微軟在云的銷售業(yè)績、AI 商業(yè)影響力等各方面均呈現(xiàn)逐年上漲態(tài)勢。2019 年微軟以 10 億美元投資 OpenAI 后,Azure 也成為了 OpenAI 的獨(dú)家云服務(wù)商。
雷峰網(wǎng):為什么這件事發(fā)生在了 OpneAI?跟微軟給了 OpenAI 一大筆投資有關(guān)嗎?
黃學(xué)東:2015 年左右我還在 Bing 期間,做了一個(gè)名為 Xcode 的超級大模型,但由于當(dāng)時(shí)沒有 GPU,Deep Learning 也還不夠 deep,即便 Xcode 占用了 Bing 80% 的計(jì)算資源仍沒有跑出來。這證明大模型沒有 GPU 根本玩不轉(zhuǎn)。
OpenAI 如今最顯著的特征就是“大”,太大便不好處理,一般人把握不住。這也是 OpenAI 和微軟云能取得矚目成功的原因。
Azure 云平臺(tái)是 OpenAI 的獨(dú)家云供應(yīng),雖然最大的成就與榮譽(yù)應(yīng)該給 OpenAI,但 Azure AI 是 Harry 和我分別推動(dòng)孵化與負(fù)責(zé)產(chǎn)品上市的,直至今天 Azure AI 是我的團(tuán)隊(duì)做出來的,我很自豪。更自豪的是,Azure AI 今年開始賺錢了,而去年這個(gè)項(xiàng)目還是虧錢的狀態(tài)。可以說,OpenAI 成功背后的確與微軟給予的巨額資金支持有關(guān)。
與此同時(shí)我們也更要看到,OpenAI 里面的人有理想,工程化能力十分強(qiáng)大,這是非常重要的因素。
何曉冬:2016 年,我和團(tuán)隊(duì)推出了一個(gè)名為 CaptionBot 的 AI 產(chǎn)品,發(fā)布后僅一星期用戶量就突破百萬。當(dāng)時(shí)我們走的過程跟 ChatGPT 特別像:先有篇論文發(fā)表,緊接著做一個(gè)公眾可用的產(chǎn)品,把它發(fā)布出來。
論文往往是在一個(gè)有局限的學(xué)術(shù)數(shù)據(jù)里,通用性存在不足,如果希望它走得更遠(yuǎn),最好的辦法就是以一個(gè)新形態(tài)、打造一個(gè)產(chǎn)品,對全世界通用。這產(chǎn)品可能很粗糙,但只要大家覺得有意思、有用,很快就能形成爆品。通過用戶使用的數(shù)據(jù)可以用于進(jìn)一步提升算法、模型,隨之進(jìn)入第三個(gè)階段、即嚴(yán)肅的產(chǎn)品使用階段。
這“三步走”我們在七年前走過,但當(dāng)初走得有點(diǎn)慢,最終沒能達(dá)到一定的服務(wù)規(guī)模,是今天我感覺有點(diǎn)遺憾的地方。現(xiàn)在微軟快多了,去年底 ChatGPT 出來,僅半年時(shí)間 GPT 就全面進(jìn)入微軟各大核心產(chǎn)品線。
這次 OpenAI 展現(xiàn)了一個(gè)新趨勢,即是產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新是不分家的。
周伯文:OpenAI 的成功由多方面因素共同成就,有 Ilya Sutskever 做技術(shù)判斷、Greg Brockman 做功能、Sam Altman來整合資源,包括 AI 對倫理、社會(huì)影響等研究他們都做了。以數(shù)據(jù)維度來看,為什么 OpenAI 選擇 Github 程序語言去訓(xùn)練思維鏈?因?yàn)槌绦蛘Z言的語義、語法極其簡單,執(zhí)行過程的邏輯嚴(yán)謹(jǐn)。這表現(xiàn)了 OpenAI 的一個(gè)特質(zhì)和優(yōu)勢:不會(huì)盲目出擊。
此外,OpenAI 在商業(yè)打法上也具有代表性,包括生態(tài)建立、宣布新摩爾定律、API 降價(jià) 90% 等等,既引發(fā)廣泛關(guān)注,又能擴(kuò)展資本和用戶對大模型商業(yè)化應(yīng)用的想象空間,衍生出幾近無限的應(yīng)用場景。
從場景中來,到產(chǎn)品里去
一項(xiàng)技術(shù)創(chuàng)新帶來的變革要深入各行各業(yè),離不開其底層的通用性、能實(shí)現(xiàn)自動(dòng)化生產(chǎn)的能力,而現(xiàn)實(shí)的情況是,基礎(chǔ)大模型在滿足細(xì)分場景下的特定需求上正顯示出“牛刀小用”的短板,面臨著準(zhǔn)確率相對較低、能力表現(xiàn)不匹配等情況。
業(yè)界對大模型的需求井噴,該如何應(yīng)用、從哪些角度來落地,是 AI 接下來發(fā)展的重要方向。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):一個(gè)客觀事實(shí)是,即使在語言大模型上,中國多個(gè)大模型產(chǎn)品的智能水平跟國外也仍有一定差距。
黃學(xué)東:早晚都會(huì)做出來,但需要時(shí)間,成敗都在細(xì)節(jié)里面。
何曉冬:ChatGPT 確實(shí)很厲害,但其厲害之處在于它的廣度上,而非深度。例如金融領(lǐng)域項(xiàng)目無法直接用 ChatGPT 來解決問題,需要與行業(yè) Know-How 相結(jié)合,并經(jīng)過實(shí)戰(zhàn)磨練。
今天的 ChatGPT 已經(jīng)不再考慮圖靈測試,它甚至?xí)嬖V你:“我是個(gè)語言模型,你有什么要問的?”它不需要欺騙人,因?yàn)樗兰幢阄沂且粋€(gè)機(jī)器、你也會(huì)跟我對話,這就是技術(shù)進(jìn)步的一個(gè)重要體現(xiàn),也是其開始變成生產(chǎn)力的一個(gè)重要體現(xiàn)。
周伯文:對任何一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)而言,在具備大模型的通用技術(shù)后、能否培養(yǎng)出更專業(yè)的能力十分重要。目前 GPT 的突破主要在通用性,但對特定行業(yè)和領(lǐng)域的價(jià)值還有待開發(fā)。比如購物場景中,我在京東期間就看到了用 AI 做消費(fèi)者需求和產(chǎn)品設(shè)計(jì)動(dòng)態(tài)匹配的巨大商機(jī),到 2021 年我決定離職創(chuàng)業(yè),做垂直行業(yè)的通用大語言模型,將消費(fèi)者所有行為從非特定場景中 cover 進(jìn)來。
我們需要有一個(gè)具備專業(yè)能力的大模型,讓消費(fèi)者更容易找到、也更愿意購買所需的商品,這可能會(huì)徹底改變?nèi)藗儸F(xiàn)有的購物路徑。
雷峰網(wǎng):從產(chǎn)品或場景應(yīng)用的角度來看,大模型落地的難度在哪里?
周伯文:以消費(fèi)場景為例,不同購物行為的符號(hào)背后,是消費(fèi)者復(fù)雜的情感、體驗(yàn)以及對產(chǎn)品的選擇邏輯,這正是企業(yè)需要的寶貴信息。
比如消費(fèi)者需要很多專業(yè)的詞匯才能找到所需的商品;另一側(cè)的商家卻不懂消費(fèi)者的真實(shí)需求,只能通過電商交易觸達(dá)消費(fèi)者、或是求助調(diào)研機(jī)構(gòu)??梢钥吹剑枨髠?cè)和供給側(cè)其實(shí)是有很強(qiáng)的對應(yīng)關(guān)系。但過去企劃、營銷、銷售的從業(yè)者都只搞明白了各自的環(huán)節(jié),有大模型之后,AI 能將所有業(yè)務(wù)鏈條打通。
核心的難題在于,我們?nèi)绾螌⑦@些信息全部高保真、壓縮到一個(gè)通用模型中,并基于該大模型賦能企業(yè)生產(chǎn)全周期。如此一來,企業(yè)能更高效地發(fā)現(xiàn)機(jī)會(huì),更具創(chuàng)意地設(shè)計(jì)生產(chǎn),更有效地營銷推廣、觸達(dá)用戶并完成轉(zhuǎn)化。
何曉冬:計(jì)算機(jī)作為典型的應(yīng)用科學(xué),很多重要的課題是在應(yīng)用中被反向牽引,因?yàn)榇罅康膽?yīng)用需求,從而促生更多變量和經(jīng)驗(yàn)體系的發(fā)展。令大模型的研究離落地更近,對科學(xué)而言是一種促進(jìn)、而非限制。
以多模態(tài)大模型為例來討論落地,在模型的可控性上、特別是對細(xì)節(jié)的理解和可控,這一塊是我認(rèn)為比較重要的。比如 Midjourney 畫圖,雖然比自己畫的要好,可能整體表現(xiàn)很好,但在刻畫手指等細(xì)節(jié)上還不夠好,往往需要生成很多張、從當(dāng)中挑出一張,還是有這個(gè)過程。
雷峰網(wǎng):如何看待大模型接下來的發(fā)展趨勢?
黃學(xué)東:在我看來,語音交互會(huì)是人類的未來。
從歷史維度來講 ,IBM 是做語音最早的公司,自 50 年代開始做機(jī)器翻譯,70 年代用語言模型進(jìn)行語音研究,但由于模型不夠大,識(shí)讀能力有限,后來 IBM 內(nèi)部將做語音的方法應(yīng)用至機(jī)器翻譯、改寫了歷史。所謂機(jī)器翻譯,就是將問題翻譯成結(jié)果、將過去已有事實(shí)轉(zhuǎn)變?yōu)閷ξ磥淼念A(yù)測(history to future)。
GPT 是語音交互,我對 Siri 也有期待,以及亞馬遜做的智能音箱、其實(shí)也非常有遠(yuǎn)見,可惜亞馬遜對 AI 的認(rèn)識(shí)不夠。微軟小冰一開始也應(yīng)該做成大模型,但這需要算力、產(chǎn)品、工程化等能力,很講究工藝。
正如今天大家都知道 GPT 的底層是 Transformer,但最后不一定每家都能把東西做出來。
周伯文:未來,哪些定義明確、高價(jià)值的工作流程將由專業(yè) AI 模型完成。通用大模型在某一場景成功后再提升其基礎(chǔ)能力就很容易,從垂直場景切入,過去我們所積累的算力、數(shù)據(jù)、算法方面也能更充分地發(fā)揮作用。
因此我們認(rèn)為,大模型在底層框架上必須有通用大模型的基礎(chǔ)能力,有科學(xué)的方法評估,同時(shí)還需要專業(yè)的訓(xùn)練。
何曉冬:當(dāng)我們說通用人工智能時(shí),往往是以人為標(biāo)桿的,我們希望所有的產(chǎn)品為人而服務(wù),在未來所有的 AGI 藍(lán)圖里,人是一個(gè)核心存在,而不是被邊緣化,如果人被邊緣化,那么這個(gè)世界對人類沒意義。
這個(gè)過程中,多模態(tài)既是一個(gè)路徑,也是一個(gè)要求。一個(gè)路徑是指,人被視為這個(gè)世界上最聰明的智能體,如果想打造一個(gè)像人一樣聰明的 AGI ,就需要向人學(xué)習(xí),以多模態(tài)方式來進(jìn)行知識(shí)融合、知識(shí)獲取。另一方面,多模態(tài)可能也是個(gè)要求,未來人跟機(jī)器打交道必然是通過語言、視覺、語音跟機(jī)器溝通的,所以機(jī)器也必須能夠理解相應(yīng)的信息,否則就無法服務(wù)人。
今天,多模態(tài)大模型的 ChatGPT 時(shí)刻還沒到來,可能還需要點(diǎn)時(shí)間,或者需要更多的數(shù)據(jù)、創(chuàng)新的算法,暫時(shí)還沒有爆發(fā)。
(雷峰網(wǎng)雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。