這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

本文作者：我在思考中

2022-08-31 11:00

導(dǎo)語(yǔ)：NLP 寒冬 30 年內(nèi)到來(lái)。

工業(yè)界壟斷資源，NLP 寒冬 30 年內(nèi)到來(lái)，可解釋研究走錯(cuò)方向，NLPer：我太難了。

作者 | 李梅

編輯 | 陳彩嫻

一味追求大模型是不是走錯(cuò)了路？

未來(lái)最有影響力的進(jìn)展是會(huì)來(lái)自工業(yè)界還是學(xué)術(shù)界？

語(yǔ)言模型到底有沒(méi)有理解語(yǔ)言？

我做的研究到底有沒(méi)有價(jià)值？

......

最近，一項(xiàng)針對(duì) NLP 社區(qū)的調(diào)查反映了 NLPer 對(duì)所有這些重要問(wèn)題的看法。來(lái)自華盛頓大學(xué)、紐約大學(xué)和約翰霍普金斯大學(xué)的組成的研究團(tuán)隊(duì)，就 NLP 領(lǐng)域的一些爭(zhēng)議性問(wèn)題征求了廣大研究者的意見(jiàn)，包括研究者在大模型、AGI（通用人工智能）、語(yǔ)言理解、未來(lái)方向等多個(gè)方面的看法。

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

論文地址：https://nlpsurvey.net/nlp-metasurvey-results.pdf

調(diào)查結(jié)果真是一看嚇一跳，竟有多達(dá) 67 % 的 NLP 研究者對(duì)自己所從事研究的科學(xué)價(jià)值抱有懷疑態(tài)度！

還有網(wǎng)友吐槽：連塔羅牌都比 NLP 靠譜。

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

其他受訪者同意比例相當(dāng)高的觀點(diǎn)還有：

被引用最多的研究成果將來(lái)自工業(yè)界而不是學(xué)術(shù)界，如今工業(yè)界在引領(lǐng) NLP 領(lǐng)域發(fā)展進(jìn)程方面的影響力過(guò)大；

反對(duì)最大化規(guī)?？?/span>以解決一切問(wèn)題的假設(shè)；

“NLP 寒冬”將在未來(lái) 30 年內(nèi)來(lái)臨；

NLP 研究人員應(yīng)該關(guān)注 AGI；

NLP 研究人員應(yīng)該更多考慮整合來(lái)自鄰近學(xué)科（如語(yǔ)言學(xué)、認(rèn)知科學(xué)）的見(jiàn)解；
過(guò)去 5 年發(fā)表的構(gòu)建可解釋模型的大多數(shù)研究都走錯(cuò)了方向；等等。

首先簡(jiǎn)單介紹一下本次調(diào)查的受訪者情況：

共有 480 位 NLPer 參與了此次調(diào)查。其中 327 人在過(guò)去三年中至少發(fā)表過(guò)兩篇 ACL 論文，這部分人是調(diào)查的目標(biāo)人群。

在地區(qū)分布上，受訪者中的 58% 來(lái)自美國(guó)，23% 來(lái)自歐洲，8%來(lái)自亞洲。其中，來(lái)自中國(guó)的 NLP 研究者占 3%。

73% 的受訪者來(lái)自學(xué)術(shù)界，22% 的受訪者來(lái)自工業(yè)界，4% 從事非營(yíng)利組織或政府工作。其中，教師和高級(jí)管理人員占 41%，23% 是初級(jí)研究人員（包括博士后），33% 是博士生，2% 是碩士研究生或本科生。

另外，受訪者的男女比例分別為 67% 和 25%。

下面我們來(lái)看本次調(diào)查的詳細(xì)結(jié)果和分析：

NLP 領(lǐng)域的整體狀況

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

圖注：對(duì)于每個(gè)問(wèn)題，圖中底部顯示同意、弱同意、弱不同意和不同意的比例。垂直的綠線（綠色數(shù)字）表示同意或弱同意該陳述的總百分比。

工業(yè)界的領(lǐng)域影響力

Q1-1：私營(yíng)企業(yè)在指導(dǎo)該領(lǐng)域的發(fā)展進(jìn)程方面影響力過(guò)大。

Q1-2：未來(lái) 10 年被引用最多的論文更有可能來(lái)自工業(yè)界，而不是學(xué)術(shù)界。

調(diào)查結(jié)果顯示，絕大多數(shù)人（86 %）都認(rèn)為，未來(lái) 10 年，被引用最多的研究成果將來(lái)自工業(yè)界而不是學(xué)術(shù)界；但也有 77 % 的人認(rèn)為，如今的私營(yíng)企業(yè)在引領(lǐng) NLP 領(lǐng)域發(fā)展進(jìn)程方面的影響力過(guò)大。

在許多人看來(lái)，一項(xiàng)工作的被引用次數(shù)并不能很好地代表其價(jià)值或重要性，而且，工業(yè)界對(duì)該領(lǐng)域的持續(xù)主導(dǎo)地位將產(chǎn)生負(fù)面影響，比如在基礎(chǔ)系統(tǒng)方面的絕對(duì)控制地位，就像 GPT-3 和 PaLM。

不過(guò)，受訪者對(duì)這兩個(gè)問(wèn)題的回答分歧很大，在學(xué)術(shù)界人士中，認(rèn)為工業(yè)界的影響力過(guò)大的人所占比重為 82 %，而在工業(yè)界這一比例為 58%。

NLP 寒冬何時(shí)到來(lái)？

受訪者被詢問(wèn)是否預(yù)計(jì)在不久的將來(lái)會(huì)出現(xiàn)一個(gè)“NLP 寒冬”，即資金和就業(yè)機(jī)會(huì)較峰值下降至少 50%。

Q1-3：我預(yù)計(jì)未來(lái) 10 年內(nèi)會(huì)出現(xiàn)“NLP 寒冬”。

Q1-4：我預(yù)計(jì)未來(lái) 30 年內(nèi)將出現(xiàn)“NLP 寒冬”。

有 30 % 的人同意或弱同意寒冬將在未來(lái) 10 年內(nèi)到來(lái)，其中僅有 7% 的人選擇“同意”；而相信寒冬將在未來(lái) 30 年內(nèi)到來(lái)的人要多得多，比例為 62%。

盡管 30 %不是一個(gè)大數(shù)字，但這也反映了這一部分 NLP 研究者的一種信念，即 NLP 研究將在不久的將來(lái)發(fā)生重大變化（至少在誰(shuí)提供資金以及提供多少資金方面）。為什么他們的態(tài)度會(huì)相對(duì)悲觀？背后有許多可能原因，比如由于工業(yè)界影響力過(guò)大而導(dǎo)致的創(chuàng)新停滯，工業(yè)界將憑借少量資源充足的實(shí)驗(yàn)室來(lái)壟斷行業(yè)，NLP 和其他 AI 子領(lǐng)域之間的界限將消失，等等。

NLP 在科學(xué)上的價(jià)值

Q1-5：在 NLP 領(lǐng)域發(fā)表的大部分工作在科學(xué)價(jià)值上值得懷疑。

有 67% 的 NLP 研究者對(duì)這一領(lǐng)域研究工作的價(jià)值進(jìn)行了反思，他們認(rèn)為，大多數(shù) NLP 工作在科學(xué)意義上是可疑的。

受訪者對(duì)“可疑”的定義可能是多樣的，包括根本不具有完整性的工作、所研究問(wèn)題不恰當(dāng)、研究結(jié)果無(wú)意義，或者研究發(fā)現(xiàn)并不重要、不可靠等等。

作者匿名制度的必要性

Q1-6：評(píng)審期間，作者匿名可保證對(duì)研究的傳播進(jìn)行限制。

ACL 會(huì)議的匿名政策比許多其他會(huì)議（如 NeurIPS、ICLR 和 ICML）要嚴(yán)格得多。調(diào)查表明，盡管爭(zhēng)議很多，但 NLP 社區(qū)總體上是支持這一政策的， 63% 的人認(rèn)為匿名可以保證限制預(yù)印本的傳播）。這個(gè)問(wèn)題也顯示出了明顯的性別差異，有 77% 的女性表示同意，只有 58% 的男性表示同意。

規(guī)模化、歸納偏差和來(lái)自臨近領(lǐng)域的啟發(fā)

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

規(guī)模最大化是終極方案嗎？

Q2-1：規(guī)?；╯caling）實(shí)際上可以解決任何重要問(wèn)題。

強(qiáng)化學(xué)習(xí)之父 Richard Sutton 在其文章 “The Bitter Lesson”中曾發(fā)表一個(gè)廣為人知的觀點(diǎn)：利用計(jì)算的一般方法最終是最有效的，而且效率提升幅度會(huì)非常大。在這種觀點(diǎn)下，模型做得越來(lái)越大，研究者期望在有足夠訓(xùn)練數(shù)據(jù)和模型容量的情況下，與引入語(yǔ)言結(jié)構(gòu)或?qū)＜以O(shè)計(jì)的歸納偏差相比，使用更少的、更通用的原則性學(xué)習(xí)機(jī)制是更優(yōu)的方案。

然而，這項(xiàng)調(diào)查的結(jié)果表明，NLP 研究者對(duì) Sutton 這種觀點(diǎn)的認(rèn)可程度實(shí)際上遠(yuǎn)遠(yuǎn)低于預(yù)期。僅有 17 % 的人同意或弱同意：鑒于本世紀(jì)算力和數(shù)據(jù)的可能發(fā)展程度，擴(kuò)大現(xiàn)有技術(shù)的實(shí)施規(guī)模將足以解決 NLP 的所有重要問(wèn)題。在人人似乎都對(duì)大模型趨之若鶩的當(dāng)下，這個(gè)數(shù)字是極低的。

語(yǔ)言理論和歸納偏差的價(jià)值

Q2-2：以語(yǔ)言理論為基礎(chǔ)的語(yǔ)言結(jié)構(gòu)的離散表示（如詞義、句法或語(yǔ)義圖）對(duì)于解決一些重要的現(xiàn)實(shí)世界問(wèn)題或 NLP 中的應(yīng)用是必要的。

Q2-3：專家設(shè)計(jì)的強(qiáng)歸納偏差（如通用語(yǔ)法、符號(hào)系統(tǒng)或受認(rèn)知啟發(fā)的計(jì)算原語(yǔ)）對(duì)于解決一些重要的現(xiàn)實(shí)世界問(wèn)題或 NLP 中的應(yīng)用是必要的。

Q2-4：到 2030 年，被引用次數(shù)最多的五個(gè)系統(tǒng)中至少有一個(gè)可能會(huì)從過(guò)去 50 年語(yǔ)言學(xué)或認(rèn)知科學(xué)研究結(jié)果中汲取明確的靈感。

與規(guī)模化的觀點(diǎn)形成對(duì)比，受訪者對(duì)于語(yǔ)言理論、歸納偏差的支持度實(shí)際上不低。50% 的人認(rèn)為，語(yǔ)言結(jié)構(gòu)對(duì)于解決 NLP 問(wèn)題是有必要的；51% 的人認(rèn)為專家設(shè)計(jì)的歸納偏差也很重要。許多 NLP 研究者似乎認(rèn)為，當(dāng)前使用低歸納偏差的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行端到端建模的趨勢(shì)將會(huì)發(fā)生逆轉(zhuǎn)。

此外，有 61% 的受訪者表示，2030 年被引用次數(shù)最多的五個(gè)系統(tǒng)很可能會(huì)從過(guò)去 50 年語(yǔ)言學(xué)或認(rèn)知科學(xué)研究中獲取靈感。而事實(shí)上，當(dāng)前系統(tǒng)對(duì)認(rèn)知科學(xué)的借鑒還僅僅停留在對(duì)神經(jīng)元、注意力、token 的粗略解釋上。

AGI 及其風(fēng)險(xiǎn)

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

AGI 的爭(zhēng)議

Q3-1：了解 AGI 的潛在發(fā)展及其利益/風(fēng)險(xiǎn)應(yīng)該是 NLP 研究者的一個(gè)重要關(guān)注事項(xiàng)。

Q3-2：大規(guī)模機(jī)器學(xué)習(xí)建模（例如語(yǔ)言建模和強(qiáng)化學(xué)習(xí)）的最新進(jìn)展是 AGI 發(fā)展的重要表現(xiàn)。

GPT-3 和 PaLM 等大型預(yù)訓(xùn)練模型的多功能性和令人驚艷的語(yǔ)言輸出，引發(fā)了人們對(duì)通用人工智能 (AGI) 的巨大爭(zhēng)議，包括預(yù)測(cè) AGI 何時(shí)會(huì)到來(lái)，我們是否真的在朝著 AGI 前進(jìn)，以及 AGI 的后果會(huì)是什么，等等。

在關(guān)于 AGI 的問(wèn)題上，受訪者的意見(jiàn)分布比較均衡，58% 的人認(rèn)為 AGI 應(yīng)當(dāng)是 NLP 研究者的一個(gè)重要關(guān)注點(diǎn)，57% 的人相信最近的研究顯著推動(dòng)了我們向 AGI 方向發(fā)展。這兩種觀點(diǎn)具有高度正相關(guān)性。

AGI 會(huì)帶來(lái)什么？

Q3-3：在本世紀(jì)，由 AI/ML 的進(jìn)步引起的勞動(dòng)力自動(dòng)化可能會(huì)導(dǎo)致具有工業(yè)革命規(guī)模的經(jīng)濟(jì)重組和社會(huì)變革。

Q3-4：在本世紀(jì)，由 AI/ML 系統(tǒng)做出的決策可能會(huì)引發(fā)一場(chǎng)全面核戰(zhàn)爭(zhēng)級(jí)別的嚴(yán)重災(zāi)難。

73% 的受訪者認(rèn)為，AI 的自動(dòng)化可能很快會(huì)帶來(lái)革命性的社會(huì)變革，這也是有那么多人認(rèn)為 AGI 是一個(gè)重要問(wèn)題的原因。值得注意的是，有 23% 的人盡管認(rèn)同這種變革，但并不同意 AGI 的重要性，所以，關(guān)于 NLP 的討論或許沒(méi)有必要牽扯進(jìn)關(guān)于 AGI 的辯論中。

此外，大約三分之一（36%) 的人認(rèn)為，AI 決策可能會(huì)導(dǎo)致核戰(zhàn)爭(zhēng)級(jí)別的災(zāi)難。這表明，有相當(dāng)一部分研究者都對(duì) AGI 表示擔(dān)憂。

語(yǔ)言理解

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

語(yǔ)言模型（LM）是否能理解語(yǔ)言？

Q4-1：對(duì)于只在文本上訓(xùn)練的生成模型而言，只要有足夠的數(shù)據(jù)和計(jì)算資源，就可以理解自然語(yǔ)言。

Q4-2：對(duì)于多模態(tài)生成模型（如一個(gè)經(jīng)過(guò)訓(xùn)練可以訪問(wèn)圖像、傳感器和執(zhí)行器數(shù)據(jù)等的模型）而言，只要有足夠的數(shù)據(jù)和計(jì)算資源，就可以理解自然語(yǔ)言。

有一半（51%）的人同意 LM 理解語(yǔ)言，如果模型還可以訪問(wèn)多模態(tài)數(shù)據(jù)（圖像等），同意的人則占比更多，為 67%。

Q4-3：原則上，我們可以通過(guò)跟蹤模型在純文本分類或語(yǔ)言生成基準(zhǔn)上的表現(xiàn)來(lái)評(píng)估模型對(duì)自然語(yǔ)言的理解程度。

相比之下，只有 36% 的人認(rèn)為，純文本評(píng)估可以衡量語(yǔ)言理解。這表明在很多人看來(lái)，評(píng)估是一個(gè)獨(dú)立的問(wèn)題，理解可能是可學(xué)習(xí)的，但不可測(cè)量。

存在的問(wèn)題及未來(lái)方向

這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

過(guò)于關(guān)注規(guī)?；突鶞?zhǔn)

Q5-1：當(dāng)前的 NLP 領(lǐng)域過(guò)于關(guān)注增大機(jī)器學(xué)習(xí)模型。

Q5-2。當(dāng)前的 NLP 領(lǐng)域過(guò)于關(guān)注優(yōu)化基準(zhǔn)性能。

分別有 72% 和 88% 的 NLP 研究者認(rèn)為，現(xiàn)在大家對(duì)規(guī)?；蛢?yōu)化基準(zhǔn)性能的關(guān)注過(guò)多。

NLP 方向走錯(cuò)了嗎？

Q5-3：過(guò)去 5 年發(fā)表的大多數(shù)模型架構(gòu)研究都走錯(cuò)了方向。

Q5-4：過(guò)去 5 年發(fā)表的大多數(shù)開(kāi)放式語(yǔ)言生成任務(wù)研究都走錯(cuò)了方向。

Q5-5：過(guò)去 5 年發(fā)表的構(gòu)建可解釋模型的大多數(shù)研究都走錯(cuò)了方向。

Q5-6：過(guò)去 5 年發(fā)表的大多數(shù)可解釋黑盒模型的研究都走錯(cuò)了方向。

在模型架構(gòu)、語(yǔ)言生成、可解釋的模型、黑盒可解釋性四個(gè)具體的研究方向上，受訪的 NLP 研究者對(duì)以上問(wèn)題的同意率分別為 37%、41%、50%、42%，爭(zhēng)議較大。在可解釋性模型問(wèn)題上，社區(qū)成員的批評(píng)態(tài)度比較顯著。

跨學(xué)科的價(jià)值

Q5-7：NLP 研究者應(yīng)當(dāng)更加重視整合相關(guān)領(lǐng)域科學(xué)（如社會(huì)語(yǔ)言學(xué)、認(rèn)知科學(xué)、人機(jī)交互）的見(jiàn)解和方法。

有高達(dá) 82% 的人認(rèn)為 NLP 研究需要借鑒更多相關(guān)領(lǐng)域科學(xué)。問(wèn)題是，雖然有這么多的人嘴上都強(qiáng)調(diào)這一點(diǎn)，但實(shí)際上做得卻并不怎么好，真正的問(wèn)題可能不是 NLP 研究者沒(méi)有意識(shí)到跨學(xué)科的重要性，而是我們還缺乏能推動(dòng)實(shí)施的知識(shí)和工具。

更多內(nèi)容，點(diǎn)擊下方關(guān)注：

掃碼添加 AI 科技評(píng)論微信號(hào)，投稿&進(jìn)群：

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng)) 這項(xiàng)最新調(diào)查勸退效果拉滿：67% 的 NLPer 懷疑自己的研究沒(méi)價(jià)值

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章