0
本文作者: 我在思考中 | 2022-08-31 11:00 |
作者 | 李梅
一味追求大模型是不是走錯了路?
未來最有影響力的進(jìn)展是會來自工業(yè)界還是學(xué)術(shù)界?
語言模型到底有沒有理解語言?
我做的研究到底有沒有價值?
......
最近,一項(xiàng)針對 NLP 社區(qū)的調(diào)查反映了 NLPer 對所有這些重要問題的看法。來自華盛頓大學(xué)、紐約大學(xué)和約翰霍普金斯大學(xué)的組成的研究團(tuán)隊,就 NLP 領(lǐng)域的一些爭議性問題征求了廣大研究者的意見,包括研究者在大模型、AGI(通用人工智能)、語言理解、未來方向等多個方面的看法。
調(diào)查結(jié)果真是一看嚇一跳,竟有多達(dá) 67 % 的 NLP 研究者對自己所從事研究的科學(xué)價值抱有懷疑態(tài)度!
還有網(wǎng)友吐槽:連塔羅牌都比 NLP 靠譜。
其他受訪者同意比例相當(dāng)高的觀點(diǎn)還有:
被引用最多的研究成果將來自工業(yè)界而不是學(xué)術(shù)界,如今工業(yè)界在引領(lǐng) NLP 領(lǐng)域發(fā)展進(jìn)程方面的影響力過大;
反對最大化規(guī)???/span>以解決一切問題的假設(shè);
“NLP 寒冬”將在未來 30 年內(nèi)來臨;
NLP 研究人員應(yīng)該關(guān)注 AGI;
NLP 研究人員應(yīng)該更多考慮整合來自鄰近學(xué)科(如語言學(xué)、認(rèn)知科學(xué))的見解;
過去 5 年發(fā)表的構(gòu)建可解釋模型的大多數(shù)研究都走錯了方向;等等。
首先簡單介紹一下本次調(diào)查的受訪者情況:
共有 480 位 NLPer 參與了此次調(diào)查。其中 327 人在過去三年中至少發(fā)表過兩篇 ACL 論文,這部分人是調(diào)查的目標(biāo)人群。
在地區(qū)分布上,受訪者中的 58% 來自美國,23% 來自歐洲,8%來自亞洲。其中,來自中國的 NLP 研究者占 3%。
73% 的受訪者來自學(xué)術(shù)界,22% 的受訪者來自工業(yè)界,4% 從事非營利組織或政府工作。其中,教師和高級管理人員占 41%,23% 是初級研究人員(包括博士后),33% 是博士生,2% 是碩士研究生或本科生。
另外,受訪者的男女比例分別為 67% 和 25%。
下面我們來看本次調(diào)查的詳細(xì)結(jié)果和分析:
工業(yè)界的領(lǐng)域影響力
Q1-2:未來 10 年被引用最多的論文更有可能來自工業(yè)界,而不是學(xué)術(shù)界。
調(diào)查結(jié)果顯示,絕大多數(shù)人(86 %)都認(rèn)為,未來 10 年,被引用最多的研究成果將來自工業(yè)界而不是學(xué)術(shù)界;但也有 77 % 的人認(rèn)為,如今的私營企業(yè)在引領(lǐng) NLP 領(lǐng)域發(fā)展進(jìn)程方面的影響力過大。
在許多人看來,一項(xiàng)工作的被引用次數(shù)并不能很好地代表其價值或重要性,而且,工業(yè)界對該領(lǐng)域的持續(xù)主導(dǎo)地位將產(chǎn)生負(fù)面影響,比如在基礎(chǔ)系統(tǒng)方面的絕對控制地位,就像 GPT-3 和 PaLM。
不過,受訪者對這兩個問題的回答分歧很大,在學(xué)術(shù)界人士中,認(rèn)為工業(yè)界的影響力過大的人所占比重為 82 %,而在工業(yè)界這一比例為 58%。
NLP 寒冬何時到來?
受訪者被詢問是否預(yù)計在不久的將來會出現(xiàn)一個“NLP 寒冬”,即資金和就業(yè)機(jī)會較峰值下降至少 50%。
Q1-4:我預(yù)計未來 30 年內(nèi)將出現(xiàn)“NLP 寒冬”。
有 30 % 的人同意或弱同意寒冬將在未來 10 年內(nèi)到來,其中僅有 7% 的人選擇“同意”;而相信寒冬將在未來 30 年內(nèi)到來的人要多得多,比例為 62%。
盡管 30 %不是一個大數(shù)字,但這也反映了這一部分 NLP 研究者的一種信念,即 NLP 研究將在不久的將來發(fā)生重大變化(至少在誰提供資金以及提供多少資金方面)。為什么他們的態(tài)度會相對悲觀?背后有許多可能原因,比如由于工業(yè)界影響力過大而導(dǎo)致的創(chuàng)新停滯,工業(yè)界將憑借少量資源充足的實(shí)驗(yàn)室來壟斷行業(yè),NLP 和其他 AI 子領(lǐng)域之間的界限將消失,等等。
NLP 在科學(xué)上的價值
有 67% 的 NLP 研究者對這一領(lǐng)域研究工作的價值進(jìn)行了反思,他們認(rèn)為,大多數(shù) NLP 工作在科學(xué)意義上是可疑的。
受訪者對“可疑”的定義可能是多樣的,包括根本不具有完整性的工作、所研究問題不恰當(dāng)、研究結(jié)果無意義,或者研究發(fā)現(xiàn)并不重要、不可靠等等。
作者匿名制度的必要性
ACL 會議的匿名政策比許多其他會議(如 NeurIPS、ICLR 和 ICML)要嚴(yán)格得多。調(diào)查表明,盡管爭議很多,但 NLP 社區(qū)總體上是支持這一政策的, 63% 的人認(rèn)為匿名可以保證限制預(yù)印本的傳播)。這個問題也顯示出了明顯的性別差異,有 77% 的女性表示同意,只有 58% 的男性表示同意。
規(guī)模最大化是終極方案嗎?
強(qiáng)化學(xué)習(xí)之父 Richard Sutton 在其文章 “The Bitter Lesson”中曾發(fā)表一個廣為人知的觀點(diǎn):利用計算的一般方法最終是最有效的,而且效率提升幅度會非常大。在這種觀點(diǎn)下,模型做得越來越大,研究者期望在有足夠訓(xùn)練數(shù)據(jù)和模型容量的情況下,與引入語言結(jié)構(gòu)或?qū)<以O(shè)計的歸納偏差相比,使用更少的、更通用的原則性學(xué)習(xí)機(jī)制是更優(yōu)的方案。
然而,這項(xiàng)調(diào)查的結(jié)果表明,NLP 研究者對 Sutton 這種觀點(diǎn)的認(rèn)可程度實(shí)際上遠(yuǎn)遠(yuǎn)低于預(yù)期。僅有 17 % 的人同意或弱同意:鑒于本世紀(jì)算力和數(shù)據(jù)的可能發(fā)展程度,擴(kuò)大現(xiàn)有技術(shù)的實(shí)施規(guī)模將足以解決 NLP 的所有重要問題。在人人似乎都對大模型趨之若鶩的當(dāng)下,這個數(shù)字是極低的。
語言理論和歸納偏差的價值
Q2-3:專家設(shè)計的強(qiáng)歸納偏差(如通用語法、符號系統(tǒng)或受認(rèn)知啟發(fā)的計算原語)對于解決一些重要的現(xiàn)實(shí)世界問題或 NLP 中的應(yīng)用是必要的。
Q2-4:到 2030 年,被引用次數(shù)最多的五個系統(tǒng)中至少有一個可能會從過去 50 年語言學(xué)或認(rèn)知科學(xué)研究結(jié)果中汲取明確的靈感。
與規(guī)?;挠^點(diǎn)形成對比,受訪者對于語言理論、歸納偏差的支持度實(shí)際上不低。50% 的人認(rèn)為,語言結(jié)構(gòu)對于解決 NLP 問題是有必要的;51% 的人認(rèn)為專家設(shè)計的歸納偏差也很重要。許多 NLP 研究者似乎認(rèn)為,當(dāng)前使用低歸納偏差的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行端到端建模的趨勢將會發(fā)生逆轉(zhuǎn)。
此外,有 61% 的受訪者表示,2030 年被引用次數(shù)最多的五個系統(tǒng)很可能會從過去 50 年語言學(xué)或認(rèn)知科學(xué)研究中獲取靈感。而事實(shí)上,當(dāng)前系統(tǒng)對認(rèn)知科學(xué)的借鑒還僅僅停留在對神經(jīng)元、注意力、token 的粗略解釋上。
AGI 的爭議
Q3-2:大規(guī)模機(jī)器學(xué)習(xí)建模(例如語言建模和強(qiáng)化學(xué)習(xí))的最新進(jìn)展是 AGI 發(fā)展的重要表現(xiàn)。
GPT-3 和 PaLM 等大型預(yù)訓(xùn)練模型的多功能性和令人驚艷的語言輸出,引發(fā)了人們對通用人工智能 (AGI) 的巨大爭議,包括預(yù)測 AGI 何時會到來,我們是否真的在朝著 AGI 前進(jìn),以及 AGI 的后果會是什么,等等。
在關(guān)于 AGI 的問題上,受訪者的意見分布比較均衡,58% 的人認(rèn)為 AGI 應(yīng)當(dāng)是 NLP 研究者的一個重要關(guān)注點(diǎn),57% 的人相信最近的研究顯著推動了我們向 AGI 方向發(fā)展。這兩種觀點(diǎn)具有高度正相關(guān)性。
AGI 會帶來什么?
Q3-4:在本世紀(jì),由 AI/ML 系統(tǒng)做出的決策可能會引發(fā)一場全面核戰(zhàn)爭級別的嚴(yán)重災(zāi)難。
73% 的受訪者認(rèn)為,AI 的自動化可能很快會帶來革命性的社會變革,這也是有那么多人認(rèn)為 AGI 是一個重要問題的原因。值得注意的是,有 23% 的人盡管認(rèn)同這種變革,但并不同意 AGI 的重要性,所以,關(guān)于 NLP 的討論或許沒有必要牽扯進(jìn)關(guān)于 AGI 的辯論中。
此外,大約三分之一(36%) 的人認(rèn)為,AI 決策可能會導(dǎo)致核戰(zhàn)爭級別的災(zāi)難。這表明,有相當(dāng)一部分研究者都對 AGI 表示擔(dān)憂。
語言模型(LM)是否能理解語言?
Q4-2:對于多模態(tài)生成模型(如一個經(jīng)過訓(xùn)練可以訪問圖像、傳感器和執(zhí)行器數(shù)據(jù)等的模型)而言,只要有足夠的數(shù)據(jù)和計算資源,就可以理解自然語言。
有一半(51%) 的人同意 LM 理解語言,如果模型還可以訪問多模態(tài)數(shù)據(jù)(圖像等),同意的人則占比更多,為 67%。
相比之下,只有 36% 的人認(rèn)為,純文本評估可以衡量語言理解。這表明在很多人看來,評估是一個獨(dú)立的問題,理解可能是可學(xué)習(xí)的,但不可測量。
過于關(guān)注規(guī)模化和基準(zhǔn)
Q5-2。當(dāng)前的 NLP 領(lǐng)域過于關(guān)注優(yōu)化基準(zhǔn)性能。
分別有 72% 和 88% 的 NLP 研究者認(rèn)為,現(xiàn)在大家對規(guī)模化和優(yōu)化基準(zhǔn)性能的關(guān)注過多。
NLP 方向走錯了嗎?
Q5-4:過去 5 年發(fā)表的大多數(shù)開放式語言生成任務(wù)研究都走錯了方向。
Q5-5:過去 5 年發(fā)表的構(gòu)建可解釋模型的大多數(shù)研究都走錯了方向。
Q5-6:過去 5 年發(fā)表的大多數(shù)可解釋黑盒模型的研究都走錯了方向。
在模型架構(gòu)、語言生成、可解釋的模型、黑盒可解釋性四個具體的研究方向上,受訪的 NLP 研究者對以上問題的同意率分別為 37%、41%、50%、42%,爭議較大。在可解釋性模型問題上,社區(qū)成員的批評態(tài)度比較顯著。
跨學(xué)科的價值
有高達(dá) 82% 的人認(rèn)為 NLP 研究需要借鑒更多相關(guān)領(lǐng)域科學(xué)。問題是,雖然有這么多的人嘴上都強(qiáng)調(diào)這一點(diǎn),但實(shí)際上做得卻并不怎么好,真正的問題可能不是 NLP 研究者沒有意識到跨學(xué)科的重要性,而是我們還缺乏能推動實(shí)施的知識和工具。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。