0
本文作者: 黃楠 | 2023-07-12 10:20 |
數(shù)據(jù)的重要性之于人工智能技術(shù)發(fā)展長期存在。但在大模型以前,鮮少有人能預(yù)見它背后巨大的想象力。
作為智能飛躍中的關(guān)鍵一環(huán),ChatGPT 火爆全球后,“模型-用戶數(shù)據(jù)-模型迭代-用戶數(shù)據(jù)”的飛輪式迭代,令人們對數(shù)據(jù)的熱情上了一個新臺階。據(jù)OpenAI 披露,此前 GPT-3.5 的文本語料多達(dá) 45TB,相當(dāng)于 472 萬套中國四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上又增加了多模態(tài)數(shù)據(jù)。
大小企業(yè)對數(shù)據(jù)的火熱反映到實(shí)際的市場環(huán)境上,是數(shù)據(jù)庫企業(yè)融資數(shù)量的增加、向量數(shù)據(jù)庫的用量陡然增長、以及細(xì)分賽道模型的批量推出......數(shù)據(jù)壁壘,成為大模型落地故事里企業(yè)競爭力的代名詞。
不過,在經(jīng)歷近半年的浪潮后,市場對大模型的感知正在降溫。近日,知名投資人朱嘯虎和傅盛在朋友圈的一番隔空爭論,給大模型行業(yè)再添了盆冷水。在朱嘯虎看來,基于大模型做應(yīng)用,護(hù)城河太低、價值非常單薄。
當(dāng)市場回歸冷靜,人們終于有時間開始思考:數(shù)據(jù)真的是大模型的壁壘嗎?
「卷」起來的數(shù)據(jù)
歸根結(jié)底,大模型在今天展現(xiàn)出強(qiáng)大的能力,得益于背后的海量數(shù)據(jù)、蘊(yùn)含了豐富的“人類”知識和智能,通過大模型技術(shù)將其提煉出來,用神經(jīng)網(wǎng)絡(luò)去表達(dá)復(fù)雜數(shù)據(jù)的背后規(guī)律。
而 GPT 系列開啟了一個新的時代,即我們不再需要提前標(biāo)注數(shù)據(jù)了,只需將大規(guī)模的語料準(zhǔn)備好,神經(jīng)網(wǎng)絡(luò)就能自己調(diào)整參數(shù)、并學(xué)習(xí)到一個穩(wěn)定狀態(tài)。
就目前來看,幾乎每一次大模型能力的提升,預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、數(shù)據(jù)類型等多個方面都起到了關(guān)鍵性作用。
2020 年,一個重要的研究工作發(fā)現(xiàn),模型效果與模型的參數(shù)量、數(shù)據(jù)量和計算量之間存在冪律發(fā)展規(guī)律“Scaling Laws”,模型參數(shù)量、數(shù)據(jù)量指數(shù)性增長、計算量增加,模型在測試集上的 loss 呈現(xiàn)指數(shù)性降低,模型性能效果越好。
也即是說,在給定計算量且參數(shù)規(guī)模較小的情況下,增大模型的參數(shù)量對模型性能的影響,遠(yuǎn)高于數(shù)據(jù)和訓(xùn)練步數(shù)對模型的貢獻(xiàn)。
圖源:Large Language Models: A New Moore's Law?
因此,業(yè)界對大模型性能形成了一種普遍的認(rèn)知,即模型的參數(shù)越多、容量越大,模型的性能表現(xiàn)越好。
而事實(shí)上,前段時間所發(fā)布不少大模型的表現(xiàn),正在不斷挑戰(zhàn)這一“參數(shù)”定律。
比如 Meta 在 2 月份開發(fā)的 LLaMA,其訓(xùn)練數(shù)據(jù)是 GPT-3 的 4.7 倍,其中 LLaMA-13B 雖然在規(guī)模上相較于 OpenAI 的 GPT-3.5(175B)和 Meta 復(fù)現(xiàn)的開源大模型 OPT 小了十幾倍,但其表現(xiàn)能力在大部分基準(zhǔn)上均超過后者;而LLaMA-65B 更是與 DeepMind 的 Chinchilla-70B、以及谷歌 5400 億參數(shù)的 PaLM-540B 在表現(xiàn)上旗鼓相當(dāng)。
可以看到,更多的數(shù)據(jù)對大模型性能的影響有關(guān)鍵性作用。
不僅如此,智源研究院副院長兼總工程師林詠華曾向 AI科技評論表示,模型性能取得階段性突破,最重要的還有數(shù)據(jù)質(zhì)量的提升,模型的訓(xùn)練語料在一定程度上會影響 AIGC 應(yīng)用、微調(diào)后模型等內(nèi)容生成的合規(guī)、安全以及價值觀等問題。清華大學(xué)副教授、聆心智能創(chuàng)始人黃民烈在向 AI 科技評論回憶參與智源大模型工作時,也強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量對于模型的性能影響非常之大。
當(dāng)前,國外的大模型和國內(nèi)部分模型會選用許多國外開源數(shù)據(jù)集進(jìn)行訓(xùn)練,如 Common Crawl、 RedPajama、BooksCorpus、The Pile、ROOT 等等。但源于互聯(lián)網(wǎng)的數(shù)據(jù)雖然多、質(zhì)量卻良莠不齊,從獲得海量數(shù)據(jù)到高質(zhì)量數(shù)據(jù),數(shù)據(jù)的清洗仍面臨著很大挑戰(zhàn)。
數(shù)據(jù)顯示,智源通過對 100 萬條 Common Crawl 網(wǎng)頁進(jìn)行分析,共提取出中文網(wǎng)頁數(shù)量近 4 萬個;從站源角度來看,可提取出中文的網(wǎng)站共有25842 個,其中 IP 顯示中國內(nèi)地的只有 4522 個,占比僅為 17%,不僅中文數(shù)據(jù)的準(zhǔn)確性大打折扣,數(shù)據(jù)安全性也很低。
如今不僅是數(shù)據(jù)量,數(shù)據(jù)清洗方式也已成為各家的核心競爭力之一。比如對數(shù)據(jù)集中污點(diǎn)數(shù)據(jù)的定義和發(fā)現(xiàn),有行業(yè)人士指出,這或許還需要社會學(xué)、倫理學(xué)等多個交叉領(lǐng)域?qū)I(yè)人士的介入,在專業(yè)知識和經(jīng)驗(yàn)積累的基礎(chǔ)上,加入對污點(diǎn)數(shù)據(jù)處理算法的迭代。
除了數(shù)據(jù)質(zhì)量,數(shù)據(jù)的多樣性也是影響模型能力表現(xiàn)的關(guān)鍵因素之一。
Sony AI 高級科學(xué)家呂靈娟向 AI 科技評論指出,數(shù)據(jù)量的增加有利于提高模型的智能水平,但更精準(zhǔn)的說法是,數(shù)據(jù)在多樣性和質(zhì)量上的提高,才能夠?qū)崿F(xiàn)整個數(shù)據(jù)值智能的飛躍,而非是單純數(shù)量的增加。舉個例子,如果是簡單的同類型數(shù)據(jù)反饋,單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋,雖然在數(shù)據(jù)的數(shù)量上增加了 10 倍,但模型的智能并沒有得到拓展和增加。
以 GPT 系列模型的能力躍進(jìn)來看:
GPT-1使用的訓(xùn)練語料以書籍為主、如BookCorpus 等
GPT-2則使用了如 Reddit links 等新聞類數(shù)據(jù),文本規(guī)范質(zhì)量高,同時又包含了部分人們?nèi)粘=涣鞯纳缃粩?shù)據(jù)
GPT-3時期,模型的數(shù)據(jù)規(guī)模呈數(shù)十倍增長,Reddit links、Common Crawl、WebText2、Wikipedia 等數(shù)據(jù)集的加入,大大提高了數(shù)據(jù)的多樣性
GPT-4階段更引入了 GitHub 代碼、對話數(shù)據(jù)以及一些數(shù)學(xué)應(yīng)用題,進(jìn)一步提高了模型的思維鏈推理能力
不僅如此,模型訓(xùn)練時所使用到的不同類型的數(shù)據(jù),甚至能夠影響最終訓(xùn)練所得的模型類型。
行業(yè)大模型的研發(fā)離不開通用大模型的能力,但從技術(shù)上看,行業(yè)大模型也并非只是簡單地將數(shù)據(jù)喂給通用大模型、進(jìn)行微調(diào),就能獲得解決專業(yè)領(lǐng)域問題的能力。此前有研究表明,擁有金融行業(yè)私有數(shù)據(jù)的 BloombergGPT 在多個任務(wù)上的表現(xiàn),并未比通用大模型的表現(xiàn)更好。
香港科技大學(xué)(廣州)信息樞紐院長陳雷告訴 AI科技評論,“大模型解決了基礎(chǔ)的語言理解問題,也即是說,大家在使用它、問它的時候,它能知道大家問了什么問題。但得到什么樣的答案,需要我們數(shù)據(jù)科學(xué)、AI 模型把前端做好?!?/p>
例如之前港科大推出的校園GPT,就將智慧校園中的知識庫放入GPT或ChatGPT中,讓它具備了回答校園導(dǎo)航、餐廳菜單、課程安排等具體學(xué)校場景中的問題。陳雷表示,“大模型是通用的,但做vertical domain (垂直領(lǐng)域)大模型、最重要就在于,前端如何讓數(shù)據(jù)ready,如果數(shù)據(jù)表現(xiàn)不好,想讓大模型回答你的問題非常難?!北热缱鲆粋€智慧城市相關(guān)的行業(yè)大模型,就需要對應(yīng)的維基百科、企業(yè)數(shù)據(jù)等等。
可以說,今天數(shù)據(jù)之于大模型,既是“煉丹”的原材料,決定了最終“烹飪”出哪個菜系的大模型,同時,數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性乃至清洗能力,也是影響大模型性能表現(xiàn)的關(guān)鍵性要素。
數(shù)據(jù)「壁壘」,是護(hù)城河還是悖論?
很長時間以來,數(shù)據(jù)被視為大模型落地的入場券,甚至是軍備競賽中的競爭護(hù)城河。關(guān)于數(shù)據(jù)“壁壘”的本質(zhì)、是否存在等問題,極少有人去思考。
眾所周知,在今天的公開互聯(lián)網(wǎng)數(shù)據(jù)中,高質(zhì)量的、中文數(shù)據(jù)樣本是偏少的,一個現(xiàn)實(shí)的情況是,大模型任意領(lǐng)域的問答生成表現(xiàn)都非常好,但面對專業(yè)領(lǐng)域問題的表現(xiàn)不佳,甚至?xí)霈F(xiàn)模型“一本正經(jīng)地胡說八道”的幻覺。
業(yè)內(nèi)人士同 AI 科技評論交流時也坦言,數(shù)據(jù)標(biāo)注可以通過找人、花錢來完成,真正困難的是原始數(shù)據(jù)的獲取,“在國內(nèi),高質(zhì)量、經(jīng)梳理過的數(shù)據(jù)短缺是一大問題,特別是有效的中文數(shù)據(jù)更是稀缺?!?/p>
因此,當(dāng)國內(nèi)各家大模型廠商將目標(biāo)瞄準(zhǔn)在追趕GPT-3.5 時,其差距大多只有 1 到 2 個月的時間差,很快就能追平,很難有哪一家能顯著拉開差距。同時,由于缺少行業(yè)數(shù)據(jù)的投喂,對容錯率更低的生產(chǎn)環(huán)節(jié)而言,大模型所能釋放的生產(chǎn)力也更加有限。
一部分人的看法是,數(shù)據(jù)壁壘將長期存在,并且隨著大模型的體量向萬億級規(guī)模邁進(jìn),數(shù)據(jù)壁壘還將持續(xù)擴(kuò)大。
可以看到,當(dāng)前的互聯(lián)網(wǎng)的數(shù)據(jù)存在一定的大廠割據(jù)的現(xiàn)象,比如在百度上搜索不會彈出來抖音的視頻推薦,阿里也拿不到微信里的數(shù)據(jù),雖然中文語料海量,但幾經(jīng)切割后,投喂出來的大模型效果也會大打折扣。這也意味著,數(shù)據(jù)的壁壘會不斷加高大模型的圍墻,使其成為僅限于大廠或擁有海量數(shù)據(jù)資源玩家的壟斷性技術(shù)。
一位大廠數(shù)據(jù)優(yōu)化工程師也向 AI 科技評論表達(dá)了相同的看法,大模型本身的泛化能力仍受限于數(shù)據(jù),如果說 ChatGPT 要取締某個職業(yè)或崗位的話,最簡單的一個判定標(biāo)準(zhǔn)即是,是否具備數(shù)量足夠多、質(zhì)量非常好的數(shù)據(jù)。
為此,自帶場景、數(shù)據(jù)和用戶的產(chǎn)業(yè)、企業(yè)客戶成為了大模型公司相互爭奪的資源。不僅如此,有知情人士告訴 AI 科技評論,為了搶占這部分企業(yè)客戶拿到數(shù)據(jù),一些大模型廠商還愿意自降身價,以比競爭對手更低的低折扣、甚至免費(fèi)的方式為企業(yè)部署大模型,以求得后續(xù)進(jìn)一步深度合作。
而另一邊,也有人對數(shù)據(jù)壁壘的觀點(diǎn)持相反看法。
有業(yè)內(nèi)人士就表示,數(shù)據(jù)壁壘、數(shù)據(jù)壟斷去搭建企業(yè)自己的護(hù)城河這一方式并不存在,更多是持有數(shù)據(jù)公司來拉高自身估值的一個說辭?,F(xiàn)階段,數(shù)據(jù)泄露、數(shù)據(jù)買賣的事件頻頻發(fā)生,灰色地帶衍生的產(chǎn)業(yè)鏈成為直指數(shù)據(jù)壁壘的矛,“一個關(guān)鍵性問題就在于,你怎么證明別人盜用了你的數(shù)據(jù)?我又要怎么防止別人盜用我的數(shù)據(jù)?”
不僅如此,數(shù)據(jù)信息也是存在于一定時間周期中的數(shù)據(jù),一方面,短時間內(nèi)的數(shù)據(jù)累計能否發(fā)生質(zhì)變,從數(shù)據(jù)轉(zhuǎn)化為有效信息還尚未可知;另一方面,有部分行業(yè)數(shù)據(jù)還會定期進(jìn)行信息披露,也就是說,今天信息的私密不意味著未來數(shù)據(jù)信息的私密。
而站在技術(shù)革新的角度上,一位從事自然語言處理方向研究的高校教授也告訴 AI 科技評論,語言大模型之所以涌現(xiàn),是多種技術(shù)積累沉淀和極致的工程化的結(jié)果,事實(shí)上并沒有什么革命性的跨越,而是一個技術(shù)工程、對參數(shù)的掌握,“底座技術(shù)決定了大模型整體性能的80%,數(shù)據(jù)、場景等等其他東西只占20%。因此,我們關(guān)注的核心還是在于,盡快先把里邊的機(jī)理弄清楚,再從底座模型入手、想怎么進(jìn)行革命性的提升?!?/p>
總體而言,隨著市場化的深入,將大模型用在業(yè)務(wù)里,一套被寄予厚望的商業(yè)模式是,收集更多的數(shù)據(jù)做成數(shù)據(jù)黑洞,模型也能變得更強(qiáng)。但同時我們也要看到,數(shù)據(jù)壁壘之于技術(shù)創(chuàng)新的局限性。
數(shù)據(jù)的「達(dá)摩克利斯之劍」
OpenAI 在對未來 AGI 發(fā)展的預(yù)測中提到了兩個重要方向,其中之一就是收集盡可能多的有效數(shù)據(jù)??梢钥吹剑瑥?GPT-3 的文本數(shù)據(jù),到 GPT-4 文本加圖片的多模態(tài)數(shù)據(jù),有業(yè)內(nèi)人士預(yù)測,GPT-5 將是文本、圖片加視頻的數(shù)據(jù)匯合。
作為工程化落地的關(guān)鍵一環(huán),數(shù)據(jù)還有很多問題沒有得到足夠重視,面臨著極大的挑戰(zhàn),首當(dāng)其沖就是數(shù)據(jù)安全問題。
將 GPT 家族視為一個不斷迭代的大模型版本,必然存在一大部分?jǐn)?shù)據(jù)共享,再引入新的數(shù)據(jù)和機(jī)制訓(xùn)練,模型的訓(xùn)練效率和生成內(nèi)容質(zhì)量受技術(shù)、數(shù)據(jù)等方面影響發(fā)生改變,而無論是哪個方面,數(shù)據(jù)存在安全隱患是毋庸置疑的。
呂靈娟告訴 AI 科技評論:“這些數(shù)據(jù)未經(jīng)授權(quán)、也沒有好的制約機(jī)制,即便在早期訓(xùn)練過程中,企業(yè)或研發(fā)人員會對有害數(shù)據(jù)進(jìn)行篩除,但從完整的訓(xùn)練流程來看,模型仍會不可避免地繼承或者加重部分污點(diǎn)數(shù)據(jù)?!逼渲校P偷目山忉屝耘c數(shù)據(jù)量呈高度相關(guān)性,模型越大、黑盒子越難解釋。
不僅如此,當(dāng)前的現(xiàn)狀是,大部分企業(yè)公司并不愿意公布自身大模型的訓(xùn)練數(shù)據(jù)來源,數(shù)據(jù)當(dāng)中涉及到隱私、公平性、偏見和環(huán)境等多方面問題,站在商業(yè)立場上,容易引發(fā)激烈討論的數(shù)據(jù)集風(fēng)險程度更高,企業(yè)出于經(jīng)營風(fēng)險將數(shù)據(jù)隱藏起來也無可厚非,但在這個過程中,外界也無法獲知該數(shù)據(jù)對個人及社會造成的具體危害有多大。
不同規(guī)模大小的企業(yè)資源差距較大,面對數(shù)據(jù)安全問題的解決方法也不同:小公司沒有足夠的財力和人力,一般多采用現(xiàn)有的開源數(shù)據(jù)集;大企業(yè)采用的方式,更多是以雇傭人力做數(shù)據(jù)標(biāo)注來對數(shù)據(jù)進(jìn)行深度清洗、提高數(shù)據(jù)質(zhì)量。
專業(yè)人士指出,數(shù)據(jù)清洗作為大模型訓(xùn)練中一個最基本的數(shù)據(jù)環(huán)節(jié),雖然可以過濾掉部分隱私或有害信息,但總的來說效果并不夠,沒有辦法將數(shù)據(jù)集中的偏見消除干凈,模型訓(xùn)練數(shù)據(jù)清洗能達(dá)到怎樣的程度,也并不能解決根本問題。對此,呂靈娟表示,解決問題的關(guān)鍵還是應(yīng)該從前期導(dǎo)入數(shù)據(jù)階段就做好防范措施,從而在后期運(yùn)維上也能節(jié)省更多的開支。
IDEA 研究院首席科學(xué)家張家興博士告訴 AI 科技評論,在開源層面,開發(fā)者也面臨著諸多的數(shù)據(jù)安全問題,其中就涉及到有些行業(yè)數(shù)據(jù)是否適合開源,因此從開源角度上看,也限制了部分模型只能部署在少數(shù)行業(yè)內(nèi)做嘗試。
而著眼于當(dāng)下,用于訓(xùn)練 ChatGPT、GPT-4 等模型的數(shù)據(jù),均源于人類發(fā)展過程中所積累下來的書籍、文章、圖片、網(wǎng)站信息、代碼等,是在沒有 AI 幫助生成的情況下創(chuàng)造的,伴隨著生成式內(nèi)容和數(shù)據(jù)越來越多,或許在不久的將來,可能會出現(xiàn)大模型用 AI 生成的數(shù)據(jù)進(jìn)行訓(xùn)練的事件發(fā)生。
此前,牛津大學(xué)、劍橋大學(xué)等研究人員就在“The Curse of Recursion: Training on Generated Data Makes Models Forget”工作中提出了一個令人擔(dān)憂的結(jié)論:“模型崩潰”(Model Collapse),也即是說,當(dāng)大模型生成的數(shù)據(jù)最終污染后續(xù)模型的訓(xùn)練集時,模型會出現(xiàn)一個退化的學(xué)習(xí)過程,隨著時間的推移,由于模型被自己對現(xiàn)實(shí)投射內(nèi)容所毒化,模型會在這個過程中開始遺忘不可能發(fā)生的事件。
當(dāng)這些由 AI 生成的數(shù)據(jù)轉(zhuǎn)化為大模型的原材料,使模型對現(xiàn)實(shí)的認(rèn)知產(chǎn)生扭曲,從而產(chǎn)生的內(nèi)容進(jìn)一步污染網(wǎng)絡(luò)世界,未來,我們通過互聯(lián)網(wǎng)獲取高質(zhì)量數(shù)據(jù)訓(xùn)練模型將會愈加困難。正如 Michael Keaton 在 1996 年電影《丈夫一籮筐》(Multiplicity)的銀幕中,制作了一個又一個自己的克隆人,最終導(dǎo)致后代克隆人的智力水平呈指數(shù)級下降,愚蠢程度不斷增加。
其次,企業(yè)的私有數(shù)據(jù)也面臨著安全隱患。
通用大模型在任意領(lǐng)域的問答生成表現(xiàn)都非常好,但它在專業(yè)知識領(lǐng)域的問答上仍有不足。相較于公開數(shù)據(jù)集,專業(yè)知識數(shù)據(jù)在網(wǎng)上不好獲取,這部分屬于核心機(jī)密的數(shù)據(jù)往往掌握在企業(yè)自己手中,數(shù)據(jù)越多、質(zhì)量越高,價值也就越大,企業(yè)想要大模型部署效果表現(xiàn)好,離不開企業(yè)提供足量、質(zhì)量夠高的數(shù)據(jù)來支撐模型訓(xùn)練要求。
但是,由于企業(yè)和大模型廠商之間存在的天然的信任障礙,企業(yè)擔(dān)心核心數(shù)據(jù)泄露,因此私有化部署成為了現(xiàn)階段大模型在企業(yè)端落地的主要選擇。
2017 年,《經(jīng)濟(jì)學(xué)人》雜志在所發(fā)表的封面文章中稱,世界上最具價值的資源不再是石油、而是數(shù)據(jù),從那之后,“數(shù)據(jù)是新時代的石油”這一說法被廣泛接受。
而六年后的今天,大模型將數(shù)據(jù)的重要意義推向了又一個巔峰,“以數(shù)據(jù)為中心”成為從事大模型研發(fā)和應(yīng)用的行業(yè)人士的共識,但同時,我們也要看到數(shù)據(jù)領(lǐng)域中存在的不足,提高數(shù)據(jù)安全性、穩(wěn)健性,減少偏見和毒性。AI 模型規(guī)模邁進(jìn)萬億時代,數(shù)據(jù)已經(jīng)成為全新生態(tài)突圍的關(guān)鍵卡點(diǎn),在大模型走向場景落地的當(dāng)下,一個清楚的事實(shí)是:對數(shù)據(jù)的需求量將越來越大。
參考鏈接:
1.https://huggingface.co/blog/large-language-models
2.https://arxiv.org/abs/2001.08361
(雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。