0
雷鋒網(wǎng) AI 科技評(píng)論按:上周四,OpenAI 發(fā)布了一個(gè)非常大的語言模型 GPT-2。給定一兩句開頭之后,這個(gè)模型就可以生成新聞、小說同人等多種不同風(fēng)格的文字,內(nèi)容看起來非常逼真。然而反常的是,OpenAI 的研究人員們決定不發(fā)布訓(xùn)練模型的數(shù)據(jù)、也不發(fā)布最大那個(gè)模型預(yù)訓(xùn)練后的參數(shù),因?yàn)樗麄冋J(rèn)為如此強(qiáng)力的模型有遭到惡意濫用的風(fēng)險(xiǎn)?!刚J(rèn)為可能有風(fēng)險(xiǎn)所以不發(fā)布模型」,這事引起了渲染大波,機(jī)器學(xué)習(xí)&自然語言處理界的研究人員們展開了熱烈的討論。
麥吉爾大學(xué)機(jī)器學(xué)習(xí)專業(yè)博士生、2017 年時(shí)曾經(jīng)在 OpenAI 實(shí)習(xí)過、同時(shí)自己做語言建模的 Ryan Lowe 針對(duì)此事寫了一篇文章,寫下了自己的觀點(diǎn)。這篇全面、博客也得到了許多研究人員的贊同。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。
關(guān)于 OpenAI GPT-2 語言模型的討論我已經(jīng)看到了很多,但是目前我還沒看到有哪個(gè)帖子完全說出了我想說的。面對(duì)機(jī)器學(xué)習(xí)領(lǐng)域研究成果潛在的被濫用的風(fēng)險(xiǎn),有一件非常重要的事是我希望所有這個(gè)領(lǐng)域的研究人員們都可以明白的,我會(huì)在下文中說明。我也會(huì)談?wù)勥@項(xiàng)研究在技術(shù)方面的價(jià)值、人類級(jí)別語言生成的社會(huì)影響;以及有人說 OpenAI 的科研目標(biāo)就是為了可以制造爆炸性新聞,我也來說說我的看法。
我曾經(jīng)做過基于神經(jīng)網(wǎng)絡(luò)的對(duì)話系統(tǒng),就是給出一段對(duì)話內(nèi)容,讓模型預(yù)測接下來的一句是什么。當(dāng)時(shí)是 2016 年年底,我還記得我們把模型生成的語句全部看了一遍,希望能找到一些符合對(duì)話語境的句子。但是一句令人滿意的都沒有。
所以當(dāng)我看到 GPT-2 生成的「會(huì)說英文的獨(dú)角獸」的故事時(shí)瞬間震驚了。這個(gè)故事講得并不完美,里面有一些前后沖突的內(nèi)容,但總的來說這篇文本十分連貫、流暢、有條理,就像是人類寫的一篇新聞一樣。在我看來,即便這樣的結(jié)果是從許多次的嘗試中挑選出來的,我覺得也是非常驚人的成果。而且這個(gè)模型在前后文里多次正確地使用了「Jorge Perez」這個(gè)人名,要知道這個(gè)模型是沒有顯式的記憶機(jī)制的,這也讓我覺得有點(diǎn)欽佩??梢哉f這個(gè)模型已經(jīng)到達(dá)了一個(gè)全新的境界了,即便最新的語言生成論文我沒有全都看過,但我認(rèn)為目前沒有任何別的模型在連貫性條理性、語法正確性、長段文本內(nèi)容的理解引用以及世界常識(shí)方面達(dá)到了這樣的水平。
我也可以明確一點(diǎn),這項(xiàng)研究中沒有任何新的算法研究成果。他們只不過是把之前的 GPT 的研究增加了規(guī)模而已。不過我覺得「具體表明了增大規(guī)模的模型有多強(qiáng)」這件事本身就是重要的成果了。事后我們回過頭來說「更多的數(shù)據(jù)、更多的計(jì)算力會(huì)給你帶來更好的模型」當(dāng)然容易,但是如果在 OpenAI 發(fā)布模型之前我拿那個(gè)獨(dú)角獸的故事給同事看、告訴他們這是 AI 生成的文本的話,我覺得他們是不會(huì)相信的。
有人猜測模型會(huì)不會(huì)只是簡單地記住了文本模版,然后再正確地把它們重復(fù)出來就可以了。這一點(diǎn)在他們的論文中也進(jìn)行了討論,作者們展示了 GPT-2 生成的樣本和訓(xùn)練數(shù)據(jù)集之間的單詞重復(fù)率,這個(gè)重復(fù)率實(shí)際上比測試集和訓(xùn)練集之間的單詞重復(fù)率還要低。換句話說,GTP-2 表現(xiàn)出的記憶行為比隨便取一段人類撰寫的文字還要低。如果我們要說這個(gè)模型具有非平凡的泛化能力的話,這算是一條挺強(qiáng)力的證據(jù)了。
我們應(yīng)該質(zhì)疑他們展示的結(jié)果嗎?提出「OpenAI 的研究人員們展示模型泛化能力的方式是否準(zhǔn)確」的這個(gè)問題是非常合理的。我個(gè)人很想看看他們選出那些展示給我們看的結(jié)果的時(shí)候一共嘗試了多少種不同的輸入(挑選結(jié)果的「元范圍」有多大)。不過他們確實(shí)提供了一個(gè)包含了幾百條原始樣本的記錄文件,這可以讓我們對(duì)模型的能力有更好的了解。另外,對(duì)于每條選出的高質(zhì)量 GPT-2 文本生成結(jié)果,他們也給出了得到那個(gè)結(jié)果時(shí)的嘗試次數(shù),這就不怎么常見了,包括我自己的論文都不會(huì)說明這個(gè)。結(jié)合他們發(fā)布的代碼,在我看來 OpenAI 展示結(jié)果的方式確實(shí)達(dá)到了其它 NLP 論文發(fā)表的標(biāo)準(zhǔn)。
現(xiàn)在我說說它帶來爭議的部分。OpenAI 決定不公開發(fā)布最大的 GPT-2 模型的預(yù)訓(xùn)練權(quán)值,他們聲稱擔(dān)心「這個(gè)大語言模型被用來大批量生成欺騙性的、有偏見的或者粗魯?shù)奈谋尽?。我們暫時(shí)不問 GPT-2 能不能做到這些,先考慮下面這個(gè)問題:如果我們有一個(gè)強(qiáng)力的開源語言模型,給定一個(gè)開頭或者一個(gè)主題之后,它能無限制地生成人類質(zhì)量的文本,這個(gè)會(huì)是一件壞事嗎?
我覺得答案是「是壞事」。雖然我們都知道人類就有很多寫假新聞的,而且政府為了達(dá)到宣傳目的也已經(jīng)雇傭了上千人撰寫有偏向的評(píng)論。但一個(gè)自動(dòng)化的系統(tǒng)就不一樣了,這可能導(dǎo)致:(1)有些抱有惡意的人,從前他們沒有足夠的資源雇傭上千規(guī)模的人力支持虛假信息宣傳,但有了低成本的自動(dòng)化系統(tǒng)之后就會(huì)不一樣;(2)目前就由政府運(yùn)行的虛假信息宣傳的規(guī)模將大幅增加。這些宣傳運(yùn)動(dòng)之所以有效,是因?yàn)楫?dāng)一個(gè)人周圍有很多人都表達(dá)了某個(gè)相同的觀點(diǎn)的時(shí)候,即便這個(gè)觀點(diǎn)單獨(dú)來看沒什么道理,他也會(huì)受到嚴(yán)重影響。增大信息宣傳的規(guī)模也就可以相應(yīng)地增加政府和企業(yè)影響大眾信念的程度。
為了對(duì)抗這樣的情況,我們需要開始探索有哪些方法可以檢測 AI 生成的文本。相對(duì)于偽造視頻和音頻的檢測,這會(huì)帶來一些不同的挑戰(zhàn):雖然高質(zhì)量的偽造視頻只需要一支就可以傳播開來影響人們的觀念,但視頻畢竟是非常高維的數(shù)據(jù),用機(jī)器學(xué)習(xí)模型檢測其中的瑕疵可能并不難。相比之下,AI 生成的文本要有大的量才能造成影響(不然單個(gè)人也就可以做了),而文本是由一個(gè)個(gè)獨(dú)立的詞組成的,想要分辨一篇小短文是不是 AI 生成的可能就會(huì)難一些,尤其是當(dāng)它比較短的時(shí)候。
所以,考慮到可能的社會(huì)影響而決定不公開發(fā)布一個(gè)表現(xiàn)不錯(cuò)的人類水準(zhǔn)的文本生成器,這是有一定道理的。
對(duì)于 OpenAI 不公開預(yù)訓(xùn)練權(quán)重的決定,也有一些人認(rèn)為這是 OpenAI 在給自己加戲,以便更好地賺到全世界的關(guān)注。他們的邏輯是,如果某項(xiàng) AI 研究能沾上「AI 會(huì)對(duì)人類產(chǎn)生威脅」的味道的話,新聞報(bào)道肯定會(huì)把這事放在頭條/封面上,OpenAI 自己明明清楚這件事,然后故意透露出「這個(gè) AI 就是有危險(xiǎn),所以我們內(nèi)部先把它阻止下來」的意味,由著媒體給他們做頭條報(bào)道,那么不僅 OpenAI 在普通大眾面前有更多曝光,甚至還強(qiáng)化了人們對(duì)于 OpenAI 在 AI 安全方面謹(jǐn)慎果斷的印象。
OpenAI 并沒有透露他們是如何和媒體們打交道的,但我們不妨動(dòng)手做做這個(gè)拼圖。首先,和其它業(yè)界實(shí)驗(yàn)室一樣,OpenAI 顯然在乎公眾對(duì)他們的了解和印象如何。其次,他們也主動(dòng)邀請(qǐng)一些媒體記者對(duì)他們的科研成果進(jìn)行報(bào)道(一些記者甚至自己嘗試了 GPT-2 模型)。另外,由于 OpenAI 是一個(gè)非盈利機(jī)構(gòu),科研成果得到報(bào)道就對(duì)他們有更多的好處,有機(jī)會(huì)獲得更多的捐助,也就有更多的預(yù)算做更多的研究。很難說 OpenAI 自己對(duì)于這些報(bào)道的內(nèi)容有多少掌控力,但是不得不說有一些報(bào)道文章有點(diǎn)聳人聽聞。
那么,我們有沒有辦法判斷 OpenAI 的主要科研目標(biāo)是不是獲取更多影響力和金錢呢?簡單的回答是:沒有這樣的辦法。我們暫且只能相信 OpenAI 說出來的話就是他們的真心實(shí)意,就是他們真的是為這項(xiàng)成果的社會(huì)影響擔(dān)憂。我個(gè)人是愿意這樣的相信的,尤其是因?yàn)閷?shí)習(xí)經(jīng)歷的原因我和其中的很多人都認(rèn)識(shí)。
不過顯然很多研究人員還是不太情愿認(rèn)為 OpenAI 的出發(fā)點(diǎn)是積極的,他們覺得 OpenAI 要么是自命清高地覺得他們能拯救世界,要么是太過相信「AI 奇點(diǎn)」以至于開始散播 AI 威脅論,要么是在 Elon Musk(特斯拉 & SpaceX CEO 馬斯克)這個(gè)吹牛大王的要求下盡可能地?fù)屨济襟w報(bào)道,等等等等。OpenAI 名字中的「Open」,結(jié)合他們引發(fā)的那么多媒體注意力,再加上和 Elon 的種種聯(lián)系,似乎都引發(fā)了種種不滿和憤恨,然后匯聚發(fā)泄在 OpenAI 介紹 GPT-2 的推特推文和 Reddit 帖子下面。
這些評(píng)判是否合理值得商榷,而且其中也不乏明確的錯(cuò)誤認(rèn)知(比如據(jù)我所知,Elon 已經(jīng)退出了 OpenAI 的董事會(huì),而且也很長時(shí)間沒有對(duì) OpenAI 的決策指手畫腳了;這并不是唯一一處錯(cuò)誤)。媒體報(bào)道中對(duì) AI 科研的扭曲是一個(gè)切實(shí)存在的問題,熱烈的報(bào)道為業(yè)界實(shí)驗(yàn)室?guī)淼耐话l(fā)關(guān)注也是個(gè)問題,這都會(huì)讓別的機(jī)構(gòu)中的研究人員們變得短視。大型 AI 實(shí)驗(yàn)室影響公眾對(duì) AI 的認(rèn)知到底到了什么程度、應(yīng)該扮演什么角色,這個(gè)重要的問題還等待我們討論。
不過我懇求各位圍觀者先把對(duì) OpenAI 的看法暫時(shí)擱置(一會(huì)兒你們可以繼續(xù)批評(píng)),仔細(xì)想想現(xiàn)在到底發(fā)生了什么。作為機(jī)器學(xué)習(xí)的研究人員,我們構(gòu)造出的東西是對(duì)會(huì)別人產(chǎn)生影響的。遲早會(huì)有那么一天,我們的科研成果是可以被拿來做壞事的,那難道我們就應(yīng)該等到那一天到來以后再開始考慮怎么處理可能會(huì)產(chǎn)生副作用的研究嗎?
機(jī)器學(xué)習(xí)研究人員里有相當(dāng)數(shù)目的人開口就是冷嘲熱諷,我對(duì)他們感到相當(dāng)失望。暫且不細(xì)說他們是怎么說的,但我覺得這體現(xiàn)出了大家對(duì)「機(jī)器學(xué)習(xí)會(huì)產(chǎn)生社會(huì)影響」這件事的態(tài)度太過輕蔑。如果你才剛加入這個(gè)領(lǐng)域,然后你看到一位厲害的、著名的研究人員開玩笑嘲諷有些研究人員不發(fā)布他們的模型所以很呆,你可能會(huì)來不及經(jīng)過什么思考就吸收了這樣的評(píng)價(jià)(起碼我自己讀碩士的時(shí)候就很容易受著名 AI 研究人員的觀點(diǎn)的影響)。我覺得這不是什么好事。
有一位研究人員在 Twitter 上指出類似的事情也曾發(fā)生在 DeepMind 身上,WaveNet 這個(gè)能生成非常高質(zhì)量的人類語音的模型就是公開發(fā)布的,而他認(rèn)為這體現(xiàn)出了 DeepMind 比 OpenAI 更有社會(huì)責(zé)任(不過 DeepMind 首次發(fā)布的時(shí)候并沒有提到關(guān)于道德和社會(huì)影響的事情)。實(shí)際上 OpenAI 做科研的方法也沒有什么特別不一樣的地方,一些別的實(shí)驗(yàn)室有符合某些條件的成果不適宜對(duì)外發(fā)布的做法,有一些工業(yè)界的實(shí)驗(yàn)室里也有公平性團(tuán)隊(duì),他們會(huì)在一項(xiàng)成果發(fā)表之前進(jìn)行檢查,但就機(jī)器學(xué)習(xí)整個(gè)領(lǐng)域來說,沒人知道他們具體實(shí)施的標(biāo)準(zhǔn)是什么樣的??雌饋?OpenAI 倒是唯一一個(gè)公開表明他們?cè)诳紤]科研成果會(huì)帶來怎樣的道德和社會(huì)影響的工業(yè)界實(shí)驗(yàn)室。即便我們要認(rèn)為他們科研的主要?jiǎng)恿κ秦澙坊蚴侵圃齑笮侣?,他們這次提出的問題也是值得我們嚴(yán)肅考慮的。
說真的,你很難說 GPT-2 值不值得引起這種程度的謹(jǐn)慎。決定發(fā)布還是不發(fā)布一項(xiàng)成果的時(shí)候需要考慮很多問題:如果有人想要作惡,不發(fā)布模型能讓他們推遲多久;作為學(xué)術(shù)研究,如何取舍結(jié)果的可復(fù)現(xiàn)性;無害的科研成果和有害的科研成果之間的界限到底在哪里;我們應(yīng)該如何負(fù)責(zé)任地與媒體打交道,確保他們能準(zhǔn)確地報(bào)道這樣的進(jìn)展。
具體以這次的 GPT-2 來說,它是不是足夠溫和、安全所以完全公開也沒關(guān)系;OpenAI 應(yīng)不應(yīng)該給其它研究人員們提供一定的接觸機(jī)會(huì)來確保結(jié)果的可重復(fù)性;或者說他們干脆連論文也別發(fā)表出來,這幾個(gè)問題都值得仔細(xì)考慮,而 OpenAI 似乎也歡迎大家一同參與這幾個(gè)問題的討論(他們?cè)诩夹g(shù)博客結(jié)尾留下了一個(gè)郵件地址,希望大家發(fā)郵件給他們反饋)。不過他們做的還不夠,這些討論應(yīng)該是完全公開進(jìn)行的,而不是通過私下的郵件。
這就是我覺得最需要大家都理解并記住的事情了:所有機(jī)器學(xué)習(xí)的研究人員們非常、非常、非常應(yīng)該開始討論研究成果發(fā)表的道德標(biāo)準(zhǔn)。推特絕不是一個(gè)好的討論場所。一種可能性是辦一個(gè) workshop,可以考慮和 ICLR、ICML、NeurIPS 這樣的頂級(jí)機(jī)器學(xué)習(xí)會(huì)議合辦,方便我們對(duì)這個(gè)領(lǐng)域可能需要形成的慣例進(jìn)行頭腦風(fēng)暴。我已經(jīng)開始想象一種「安全性檢查清單」類似的東西(就像最近的「可重復(fù)性檢查清單」)一樣,鼓勵(lì)研究人員們發(fā)表成果之前先按照清單檢查一遍。就和生物科學(xué)、網(wǎng)絡(luò)安全領(lǐng)域一樣,這個(gè)領(lǐng)域的技術(shù)水平已經(jīng)足夠高,以至于一小部分機(jī)器學(xué)習(xí)論文已經(jīng)有被濫用的可能性。這足夠提醒我們應(yīng)該開始做點(diǎn)什么了。
我相信會(huì)有一些機(jī)器學(xué)習(xí)研究人員一面讀著我這篇文章,一面覺得:「整件事都很滑稽,現(xiàn)在的 AI 根本就什么都做不了。我要回去訓(xùn)練模型了。」這也是問題的一部分,從這個(gè)領(lǐng)域里面來看常常會(huì)覺得進(jìn)步都是一點(diǎn)點(diǎn)、一點(diǎn)點(diǎn)地累積發(fā)生的,而且也沒有什么東西的工作情況是符合我們的期待的(尤其是強(qiáng)化學(xué)習(xí))。但是機(jī)器學(xué)習(xí)的研究已經(jīng)對(duì)真實(shí)世界有了實(shí)實(shí)在在的影響(比如信貸、法庭判決、招聘等場景中做出決策)。這些算法中的偏見正在逐漸被發(fā)現(xiàn),但我們確認(rèn)這些偏見的時(shí)間都要比這些系統(tǒng)首次投入使用的時(shí)間遲了好幾年,而且同時(shí)它們也對(duì)人們的生活有嚴(yán)重的影響。
隨著我們的機(jī)器學(xué)習(xí)系統(tǒng)變得越來越能干,我們能做的事情變得越來越厲害,確實(shí)有可能會(huì)讓世界變得越來越好。不過同樣地,技術(shù)成果被濫用的可能性也會(huì)大大增加。如果大多數(shù)的機(jī)器學(xué)習(xí)研究人員們?cè)诎l(fā)表自己的成果之前都不考慮可能的社會(huì)影響的話,在意這些影響的人就只能事后再想辦法補(bǔ)救。如果我們想要減少機(jī)器學(xué)習(xí)可能對(duì)整個(gè)世界帶來的傷害,我們現(xiàn)在做的這些還遠(yuǎn)遠(yuǎn)不夠。
via medium.com/@lowe.ryan.t,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。