0
本文作者: 李梅 | 2023-03-15 15:14 |
作者丨李梅 黃楠
編輯丨岑峰
今日,多模態(tài)大模型 GPT-4 震撼登場!
GPT-4 能夠接受圖像和文本輸入,輸出文本,在各項測試和基準(zhǔn)上的表現(xiàn)已經(jīng)與人類水平相當(dāng)。
OpenAI 一次性大放送,發(fā)布了 GPT-4 的技術(shù)報告、system card,并提供了 ChatGPT Plus 體驗、GPT-4 的 API waitlist、demo 視頻,以及用于自動評估 AI 模型性能的 OpenAI Eval 框架。
Sam Altman 稱,GPT-4 是“我們迄今為止最強(qiáng)大、對齊最好的模型”。
—— 1 ——
對 ChatGPT 的巨大超越
在許多方面,GPT-4 都已經(jīng)能做到之前 ChatGPT(GPT-3.5)所力不能及的事情。相比 ChatGPT,GPT-4 支持更長的輸入,一次可接受 32768 個 token,相當(dāng)于 50 頁紙的內(nèi)容,長篇學(xué)術(shù)論文可以直接丟給它去解讀了。
圖源知乎
GPT-4 跟 GPT-3.5 具有相同的 API 接口和交互界面,但在文本總結(jié)和加工能力上,GPT-4 有了明顯的提升,這表現(xiàn)提出指令后,模型能更好地遵循指令給出答案。
例如讓一篇文章變成一個句子,每個單詞都以 G 開頭,GPT-3.5 還未嘗試就放棄了任務(wù),但在 GPT-4 中可以很好地完成:
GPT-3.5
GPT-4
同時,GPT-4 對指令的理解能力更佳:
(圖片來源:知乎網(wǎng)友:@連詩路)
此次更新中,GPT-4 最令人驚喜的能力,是它可接受圖片輸入,并對圖片生成說明、分類和分析。比如輸入一張有雞蛋、面粉和牛奶的圖片,詢問 GPT-4 可以使用這些原材料做什么,得到的結(jié)果如下:
GPT-4 可以實現(xiàn)從圖片中提取文字信息并輸出到 HTML,比如嘗試手繪一個笑話網(wǎng)站模型,讓 GPT-4 嘗試自動生成網(wǎng)站的原型圖(程序員嗅到了危險的味道):
手繪的笑話網(wǎng)站模型圖
GPT-4 根據(jù)手繪生成的笑話網(wǎng)站
對比 ChatGPT,GPT-4 的推理能力也有所超越,下面的結(jié)果展示了同一個問題 ChatGPT 和 GPT-4給出的不同答案:
左邊為 ChatGPT,右邊是 GPT-4
不僅如此,GPT-4 還能基于稅務(wù)法則,幫助一對夫妻精準(zhǔn)地計算出2018年繳納的稅額,并給出詳盡的算法步驟,以便閱讀解釋。
據(jù)了解,OpenAI 于去年 8 月就已經(jīng)完成了 GPT-4 的訓(xùn)練,我們與 OpenAI 的差距似乎更大了。
—— 2 ——
與 ChatGPT 相同的技術(shù)路線
在技術(shù)層面,一句話概括,GPT-4 是一個 Transformer 模型,使用公開可用的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方提供商許可的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,預(yù)測文本中的下一個 token,然后使用 RLHF(來自人類反饋的強(qiáng)化學(xué)習(xí))對模型進(jìn)行微調(diào)。
在一份98頁的技術(shù)報告中,OpenAI 報告了 GPT-4 的性能、局限性和安全特性,但并沒有公開有關(guān)架構(gòu)(包括模型參數(shù)量)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法等內(nèi)容的更多細(xì)節(jié)。
OpenAI 聲稱是“鑒于競爭格局和 GPT-4 等大規(guī)模模型的安全性影響”。
關(guān)于GPT-4的參數(shù)量,此前OpenAI的CEO Sam Altman表示,GPT-4不會比GPT-3高出太多,但大家關(guān)于GPT-4擁有極大參數(shù)量的猜測仍有很多。
對此,UCL 計算機(jī)系教授、上海數(shù)字大腦研究院院長汪軍認(rèn)為,大力確實出奇跡,此前 ChatGPT 的語言能力很強(qiáng),有一定的邏輯推理能力,但它并未真正理解數(shù)據(jù)里面的內(nèi)容,它只是在原來的訓(xùn)練數(shù)據(jù)中、搭料能力很強(qiáng),因此是具有一定局限性的,在訓(xùn)練里一定要加上它對整個世界的理解。舉個簡單的例子,以下棋為例,如果你給它所有人類的下棋數(shù)據(jù)能力,比如說2000分以下所有人的數(shù)據(jù),如果模型只模仿人的話,那么它是模仿不出比這2000分更高的智能的。
報告地址:https://cdn.openai.com/papers/gpt-4.pdf
在這份技術(shù)報告中,OpenAI 依然傳達(dá)了一些關(guān)鍵信息,比如 GPT-4 采用與 GPT-3.5/ChatGPT 完全相同的技術(shù)路線;有一系列的對齊方案來保證 GPT-4 輸出的安全性;基于不超過 GPT-4 千分之一的計算量來準(zhǔn)確預(yù)測 GPT-4 在一定計算規(guī)模下的性能,利用小模型的訓(xùn)練性能來預(yù)測大模型期望性能這一點,在 OpenAI 看來是一項核心能力,也是一個值得研究的方向。
—— 3 ——
GPT-4 背后的強(qiáng)大陣容
盡管在 GPT-4 的技術(shù)細(xì)節(jié)方面,OpenAI 仍不夠 Open,但這次他們也做了一次大膽的公開—— GPT-4 貢獻(xiàn)者名單。
這份名單的最大看頭在于,從下面這些詳細(xì)的組別分類中可以大致看出 OpenAI 的部門組織架構(gòu),也足見 GPT-4 背后是一支多么龐大的隊伍,從模型訓(xùn)練到評估再到安全部署,每一環(huán)都配備了大量的人力。
貢獻(xiàn)者名單
這里一共列出了7個組別:
預(yù)訓(xùn)練:計算集群規(guī)?;?、數(shù)據(jù)、分布式訓(xùn)練基礎(chǔ)設(shè)施、硬件正確性、優(yōu)化&架構(gòu)、訓(xùn)練保姆(Training run babysitting)
長文本:長文本研究、長文本 kernels
視覺:架構(gòu)研究,計算集群規(guī)?;?、分布式訓(xùn)練基礎(chǔ)設(shè)施、硬件正確性、數(shù)據(jù)、對齊數(shù)據(jù)、訓(xùn)練保姆、部署&后訓(xùn)練
強(qiáng)化學(xué)習(xí)&對齊:數(shù)據(jù)集、數(shù)據(jù)基礎(chǔ)設(shè)施、ChatML 格式化、模型安全性、Refusals、底層 RLHF 和 InstructGPT 工作、Flagship training runs、代碼能力
評估&分析:OpenAI Evals 庫、模型分級評估基礎(chǔ)設(shè)施、加速預(yù)測(Acceleration forecasting)、ChatGPT 評估、能力評估、代碼評估、真實世界使用案例評估、污染性調(diào)查、指令遵循和API評估、新奇能力發(fā)現(xiàn)、視覺評估、經(jīng)濟(jì)影響評估、非擴(kuò)散&國際人道主義法與國家安全的有害行為評估、過度依賴分析、隱私和PII評估、安全和政策評估、OpenAI 對抗性測試、系統(tǒng)卡和更廣泛影響分析
部署:界面研究、GPT-4 API 和 ChatML 部署、GPT-4 web 體驗、界面基礎(chǔ)設(shè)施、可靠性工程、信任與安全工程、信任與安全監(jiān)測和響應(yīng)、信任與安全政策、部署計算、產(chǎn)品管理
其他:發(fā)布博客和論文內(nèi)容、協(xié)作、計算分配支持、協(xié)議&稅務(wù)&定價&資金支持、午餐合作伙伴&產(chǎn)品操作、法律、安全與隱私工程、系統(tǒng)管理與隨叫隨到服務(wù)
另外,OpenAI 也對微軟的支持表示了感謝,特別是微軟 Azure 為 GPT-4 模型的訓(xùn)練提供了基礎(chǔ)架構(gòu)設(shè)計和管理方面的支持,另外還有微軟Bing團(tuán)隊和安全團(tuán)隊在安全部署方面的支持。
對于 OpenAI 的追趕者來說,這份名單一定程度上指示了一個方向,值得仔細(xì)研究。它對于 AI 領(lǐng)域人才的潛在熱門職業(yè)方向也有啟示,比如模型訓(xùn)練“保姆”、新奇能力發(fā)現(xiàn)師、算法模型安全師、數(shù)據(jù)和模型污染調(diào)查師等等。
—— 4 ——
開啟多模態(tài)大模型時代
GPT-4 開啟了多模態(tài)大模型的時代,遺憾的是,OpenAI 這次并沒有公布 GPT-4 在多模態(tài)方面的技術(shù)細(xì)節(jié)。
自然語言是多模態(tài)的基礎(chǔ)
目前 GPT-4 還只是文本+圖像輸入、文本輸出,可以預(yù)測文本+圖像不久也將實現(xiàn)。ChatGPT 已經(jīng)帶火了 NLP,GPT-4 想必對于視覺領(lǐng)域的研究者們也是一大機(jī)遇,也或許是一次沖擊。不過,在多模態(tài)大模型中,自然語言仍被認(rèn)為是核心。UCL 計算機(jī)系教授、上海數(shù)字大腦研究院院長汪軍告訴 AI科技評論,Chat 構(gòu)建了一個相對清晰的邏輯描述,它或許不是百分百嚴(yán)謹(jǐn),但已經(jīng)足夠讓我們?nèi)ケ磉_(dá)一些非常復(fù)雜的邏輯關(guān)系。但他認(rèn)為,這是一個 Free power,也即是說,它可以能把這個問題表述得很清晰、但這是表象,最主要的是 Chat 里面含載的語義關(guān)系,當(dāng)其他多模態(tài)來了之后,匹配上相應(yīng)的語義表達(dá),就可以遷移到其他的模態(tài)當(dāng)中。
知識體系和自動化體系時代
在通過交互界面獲取信息這一點上,ChatGPT 已經(jīng)對用戶完成了科普任務(wù)。GPT-4 出現(xiàn)后,Chat 將不再是大家關(guān)注的重點,GPT-4 能力的躍升正在引發(fā)大家思考 GPT 時代的產(chǎn)業(yè)變革將怎樣發(fā)生。在前維卓CTO 張烜看來,ChatGPT 背后的時代變化,是從信息時代 AI 向用戶快速提供豐富的信息,到AI直接提供完整的知識體系。ChatGPT 的貢獻(xiàn)是提供了一個便捷易用的交互界面,讓普通人都能用得起來,功不可沒,GPT-4 是在此基礎(chǔ)上的再一次飛躍。他認(rèn)為,除了模型變得更大、更強(qiáng)以外,AI 技術(shù)本身的變化可能不顯著,但從應(yīng)用的角度看,新的時代已經(jīng)到來。這個新時代便是知識體系和自動化的時代,AI 優(yōu)化的目標(biāo)是自動化地輸出最終結(jié)果和完整的知識體系。
能夠適應(yīng)這種新形勢的是以 RPA(Robotic process automation)為代表的自動流程化分發(fā),但是目前的 RPA 起始于20年前,不適用于現(xiàn)在的媒體方式和交互內(nèi)容,需要在文字、圖像和視頻化處理上加以改進(jìn),才能和 GPT 完美匹配。張烜對 AI科技評論透露,這是 GPT 影響產(chǎn)業(yè)的一個重要方式,也將是他接下來的創(chuàng)業(yè)方向。
目前,有一部分企業(yè)已經(jīng)提前用上了 GPT-4,其中就包括了 Stripe、摩根士丹利和 Duolingo 等。Stripe 團(tuán)隊列出了50個潛在應(yīng)用程序來測試 GPT-4,經(jīng)過審查和測試,當(dāng)中有15個原型被認(rèn)為是集成到平臺中的有力候選者,包括支持定制、回答有關(guān)支持的問題和欺詐檢測。
摩根士丹利人員日常工作需要面對一個巨大的內(nèi)容庫,涵蓋投資策略、市場研究和評論以及分析師見解等知識內(nèi)容達(dá)到數(shù)十萬頁,并且這些信息大多以 PDF 格式分布在內(nèi)部網(wǎng)站上,需要顧問瀏覽大量信息才能找到特定問題的答案,搜索費(fèi)時費(fèi)力。為此,從去年開始,摩根士丹利就引入了 GPT-3,利用 GPT 的嵌入和檢索功能,釋放內(nèi)部人員在財富管理累積知識上的工作量,GPT-4 發(fā)布后,將為面向摩根士丹利內(nèi)部的聊天機(jī)器人提供支持,該計劃由摩根士丹利財富管理部門首席分析和數(shù)據(jù)官 Jeff McMillan 所在團(tuán)隊領(lǐng)導(dǎo)進(jìn)行,團(tuán)隊項目負(fù)責(zé)人指出,GPT-4 將能夠把所有洞察力解析為一種更有用、可操作的格式。
據(jù) McMillan 介紹,摩根士丹利財富管理在 GPT-4 引入后將分為三個部分進(jìn)行,第一部分的落腳點在 GPT-4 的“幾乎瞬間訪問、處理和合成內(nèi)容的非凡能力”上,即基于互聯(lián)網(wǎng)大量文本進(jìn)行訓(xùn)練,并在單詞、句子、概念和想法之間建立關(guān)系。第二個落腳點在摩根士丹利的智力資本,摩根士丹利創(chuàng)立有一個獨(dú)特的內(nèi)部內(nèi)容存儲庫,后續(xù)將通過 GPT-4 進(jìn)行處理和解析,并受公司內(nèi)部控制的約束。最后一部分在公司的人員上,摩根士丹利就 GPT-4 進(jìn)行了培訓(xùn),每天有200多名員工查詢相關(guān)系統(tǒng)并提供反饋,盡可能實現(xiàn)由內(nèi)部聊天機(jī)器人完成全面搜索財富管理內(nèi)容。McMillan 表示,這項工作還將進(jìn)一步豐富摩根士丹利顧問與其客戶之間的關(guān)系,使他們能夠更快地幫助更多人。Duolingo 也推出了一種由 GPT-4 提供支持的學(xué)習(xí)體驗 Duolingo Max,新增“Explain My Answer(解釋我的答案)”和“Roleplay(角色扮演)”兩大功能。
角色扮演
在 Explain My Answer 中,學(xué)習(xí)者通過在某些練習(xí)類型之后點擊一個按鈕,可以進(jìn)入與 Duo 的聊天獲得答案解釋,并要求舉例或進(jìn)一步說明;Roleplay 功能允許學(xué)習(xí)者與應(yīng)用程序中的角色進(jìn)行對話,角色覆蓋多個真實場景,包括在巴黎的咖啡館點咖啡、邀請朋友一起旅行、未來的假期計劃等。(公眾號:雷峰網(wǎng))
參考鏈接:
https://openai.com/product/gpt-4
https://openai.com/contributions/gpt-4
(公眾號:雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。