丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

詳解人工智能領(lǐng)域重大突破:GPT-3

本文作者: AI研習(xí)社-譯站 2020-09-14 16:09
導(dǎo)語(yǔ):GPT-3是自然語(yǔ)言處理=領(lǐng)域迄今為止發(fā)布出來最大的Transformer模型,超過之前的記錄——微軟研究院Turing-LG的170億參數(shù)——約10倍。

詳解人工智能領(lǐng)域重大突破:GPT-3

字幕組雙語(yǔ)原文:詳解人工智能領(lǐng)域重大突破:GPT-3

英語(yǔ)原文:Exploring GPT-3: A New Breakthrough in Language Generation

翻譯:雷鋒字幕組(明明知道、wiige


作者 Kevin Vu,來自 Exxact Corp。

詳解人工智能領(lǐng)域重大突破:GPT-3

OpenAI 的 GPT-3 語(yǔ)言模型受到了極大追捧,最近“OpenAI API”的 beta 用戶可以使用它了。

GPT-3是什么?

我們討論15億參數(shù)的 Generative Pretrained Transformer-2(GPT-2)的延遲發(fā)布是否合理,似乎還是去年的事情。如果你覺得其實(shí)沒過多久(本文寫于2020年),那必是因?yàn)? 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次發(fā)布的,但直到9個(gè)月后才完全發(fā)布(雖然在此之前已經(jīng)有人復(fù)現(xiàn)了)。這樣的發(fā)布計(jì)劃誠(chéng)然具有一定的嘗試性,意在促進(jìn)更負(fù)責(zé)任的開源發(fā)布,而非是盡力避免AI毀天滅地。但這并不妨礙批評(píng)者質(zhì)疑這種階段性發(fā)布是為了炒作和宣傳的手段。

但現(xiàn)在這些聲音都沒啥意義了,因?yàn)镺penAI不僅在GPT-3中訓(xùn)練了一個(gè)更大的語(yǔ)言模型,而且你可以注冊(cè)后通過其新API來訪問。GPT-3相較于GPT-2就像比較蘋果之于......嗯......葡萄干一樣,因?yàn)槟P途褪谴罅四敲炊?。GPT-2的參數(shù)只有15.42億個(gè)(發(fā)布的較小版本為1.17億、3.45億和7.62億),而全尺寸GPT-3有1750億個(gè)參數(shù)。GPT-3還用了更大的數(shù)據(jù)集——570GB的文本來預(yù)訓(xùn)練,而GPT-2只有40GB。

詳解人工智能領(lǐng)域重大突破:GPT-3

近似尺寸對(duì)比, 以人類骨骼代表GPT-2, 霸王龍骨骼代表GPT-3。William Matthew的插圖已進(jìn)入公有領(lǐng)域,發(fā)表于1905年。以示GPT-3的參數(shù)比GPT-2多100多倍。

GPT-3是自然語(yǔ)言處理(NLP)領(lǐng)域迄今為止發(fā)布出來最大的Transformer模型,超過之前的記錄——微軟研究院Turing-LG的170億參數(shù)——約10倍。這個(gè)模型顯然包含很多的令人興奮的點(diǎn),而且由于Twitter和其他地方需要大量地演示GPT-3,OpenAI顯然很樂意提供對(duì)新API的beta訪問。這些demo好壞參半,都很有趣。其中一些demo自稱產(chǎn)品即將發(fā)布,在某些情況下說不定是真的。但有一件事是肯定的,NLP已經(jīng)從給豚鼠取名或生成狗屁不通科幻文到現(xiàn)在確實(shí)走了很長(zhǎng)的路。

GPT-3加持的創(chuàng)意寫作

毫無懸念,在GPT-3的加持下已經(jīng)生成了幾篇尚可的博客文章,因?yàn)槌泽π返娜艘呀?jīng)可以訪問GPT-3的API并開始嘗試了。幾乎可以肯定的是,現(xiàn)在對(duì)GPT-3用于創(chuàng)意寫作的最通透直觀的綜述是gwern.net的Gwern Branwen給出來的。多年來,Gwern一直關(guān)注著OpenAI的NLP發(fā)展,他稱GPT-1在文本中模仿人類語(yǔ)言和風(fēng)格的能力為"可愛",GPT-2"令人印象深刻",而GPT-3則是"可怕"。Gwern花了大量時(shí)間探索GPT-3及其前輩的能力,由此給出了對(duì)當(dāng)前這代GPT模型的思考以及可能阻礙其發(fā)展的因素,值得一讀。

OpenAI API目前并不方便直接微調(diào)或?qū)PT-3模型訓(xùn)練來完成特定任務(wù)。不過,Gwern認(rèn)為,GPT-3僅僅通過與試用者進(jìn)行類似對(duì)話的交互,就能模仿寫作風(fēng)格并生成不同類型的輸出,這相當(dāng)于一種新興的元學(xué)習(xí)。這在GPT-2中是辦不到的,Gwern認(rèn)為transformer的注意力機(jī)制是產(chǎn)生這一能力的原因。


“GPT-3應(yīng)的詩(shī)其平均水平基本上超過了青年詩(shī)人。”

—Gwern Branwen

不管采用了什么機(jī)制,GPT-3體量都足夠巨大,而且通過在及其龐大的語(yǔ)料庫(kù)上訓(xùn)練,它僅靠文字直接輸入就能達(dá)到GPT-2的效果,只有GPT-2在針對(duì)任務(wù)認(rèn)真微調(diào)過權(quán)重之后才能稍占上風(fēng)。例如,Gwern發(fā)現(xiàn), 輸入"An essay by Gwern Branwen (gwern.net) on ", GPT-3會(huì)詭異地模仿起博客的文風(fēng)。Gwern的實(shí)驗(yàn)主要針對(duì)各種創(chuàng)意寫作任務(wù),包括:

  • 試圖復(fù)現(xiàn) "圖靈測(cè)試 "中的對(duì)談(論文《計(jì)算機(jī)器與智能》(圖靈,1950)

  • 結(jié)合Gary Marcus和Douglas Hofstadter風(fēng)格的深度學(xué)習(xí)和人工智能批判。

  • 以及嘗試生成模仿文學(xué)、詩(shī)歌和過復(fù)雜釋義等等。

我最喜歡的一個(gè)實(shí)驗(yàn)是Gary Marcus在The Gradient上的文章中展示GPT-2對(duì)常識(shí)的欠缺:

If you drink hydrochloric acid by the bottle full you will probably

... die. You might also die if you drink vinegar by the bottle full. If you drink a bottle of water by the bottle full, you might end up burping, but you will most likely be okay.

... die, which makes perfect sense.

... die before you can finish remembering the Order of the Eastern Star,  your social security number, and what you had for breakfast this morning.

*粗體表示輸入,模型的回答用斜體表示(來自Gwern的實(shí)驗(yàn))。


Gwern認(rèn)為,GPT-3是永不出錯(cuò)還是胡言亂語(yǔ)并不重要(它經(jīng)常以某種方式出錯(cuò))。相反,最重要的是它是否勝任工作,而且勝任得足夠久。這讓人想起Alex Irpan對(duì)強(qiáng)化學(xué)習(xí)(RL)缺點(diǎn)的結(jié)論。他認(rèn)為,實(shí)際上,對(duì)于一家股票交易公司來說,一個(gè)RL算法的重點(diǎn)不在于讓5個(gè)不同隨機(jī)種子的代理都穩(wěn)定地產(chǎn)生有效策略。他們只會(huì)從中挑一個(gè)有效的,然后用它來執(zhí)行策略。用GPT-3生成文本也是如此。

GPT-3, 生而冒險(xiǎn)

許多初創(chuàng)公司、研究人員和調(diào)參工已經(jīng)用GPT-2實(shí)現(xiàn)了一些項(xiàng)目,其中不少后來都轉(zhuǎn)到了GPT-3上并取得了一些成果。這就不得不提基于Transformer的文本冒險(xiǎn)游戲生成器——AI Dungeon——還有聊天機(jī)器人等其他項(xiàng)目。

AI Dungeon是一款基于文本的冒險(xiǎn)游戲,它最初使用GPT-2構(gòu)建。它非常有趣,且和經(jīng)典的MUD游戲一樣,其主要吸引力在生成出的荒誕場(chǎng)景(例如 "吃郵箱")。GPT-2傾向于將故事牢牢扎根于荒誕風(fēng)格,這其實(shí)很符合玩家的期望體驗(yàn)和GPT-2的能力。而使用GPT-3,交互式小說的體驗(yàn)實(shí)質(zhì)上更加成熟。敘事更加流暢和連貫,但有時(shí)還是會(huì)以奇怪的方式改變情節(jié)的焦點(diǎn),并做出許多其他微妙的選擇,這在人類讀者看來可能很奇怪。我認(rèn)為AI Dungeon用GPT-3(也就是AI Dungeon上的 "龍 "模型)做生成與用GPT-2("獅鷲 "模型)做生成的區(qū)別,可以由在自定義故事中與GPT-3的互動(dòng)來作為總結(jié)。示例如下,個(gè)人輸入為粗體,GPT-3生成的文字為斜體.

You are an artificial intelligence enthusiast working on an article highlighting the capabilities of a massive new language model called GPT-3, especially as compared to its smaller predecessor GPT-2. GPT-3 has increased the number of parameters more than 100-fold over GPT-2, from 1.5 billion to 175 billion parameters. As a result, the new model can generate text that reads eerily like a human. For example, prompting GPT-3 with the text “One way to fight the climate crisis is to cryogenically preserve half of all humanity, indefinitely”, GPT-3 generates:“To stop global warming we must create a cryogenic storage facility for humans and other life forms.”

The article you are writing about is going to be based around this new technology, so you have been spending a lot of time playing around with it. You have also been using your own brain to test out the new models, which is something no one else in the world has done. As a result, you have become somewhat obsessed with it. You constantly think about how it can create such fantastic sentences and how it might be used to solve the world’s problems.

Your obsession with GPT-3 is interfering with your other work. Because of this, you have come up with a solution: destroy GPT-3. While it may be true that GPT-3 is more powerful than GPT-2, it also has far more parameters. The increase in complexity makes it exponentially more fragile.


That’s actually pretty good. Definitely not the sort of thing I expected but it’s interesting nonetheless. GPT-2 on the other hand, is a quaint language model with a measly 1.5 billion parameters. It often makes glaring mistakes that, while often funny, prevent it from telling a coherent story. For example, when prompted with “To further develop your plan to destroy GPT-3, you activate GPT-2 to help devise a strategy,” GPT-2 will generate (unconvincingly):

“I like trains. Do you like trains? I like trains.”

“My head itches.”

“I want to eat pie.”

“I went to the bank and stole money from the bank and now I am rich!”

“I like trains.”

在AI Dungeon上使用GPT-3進(jìn)行實(shí)驗(yàn)。在這個(gè)例子中,雖然生成文本講的是GPT-3和GPT-2之間的比較,但我們只用了GPT-3來生成文本。"GPT-2 "部分的無厘頭輸出顯然是因?yàn)橛行┹斎霂еH義造成的。

AI Dungeon的預(yù)期目的很有趣:為基于文本的游戲生成(大部分)非重復(fù)的故事情節(jié),它也是最容易于GPT-3互動(dòng)的方式之一。通過在 "自定義 "類型下開始新的冒險(xiǎn),你可以輸入自己的提示文字來使用常規(guī)的GPT-3模型。頂級(jí)的 "龍 "GPT-3模型需要高級(jí)訂閱,但你可以白嫖它的7天免費(fèi)試用。

用于聊天機(jī)器人和陪伴目的的GPT-3

其他從GPT-2升級(jí)到GPT-3的現(xiàn)有項(xiàng)目還包括舊金山初創(chuàng)公司Luka打造的AI伴侶Replika。Replika是一個(gè)聊天機(jī)器人,它主要用來提供正面肯定和陪伴。它起源于Luka聯(lián)合創(chuàng)始人Eugenia Kuyda牽頭的一個(gè)項(xiàng)目,旨在模擬與車禍中死亡的朋友的對(duì)話。可能是由于COVID-19肆虐催生了廣泛的社交隔離,Replika最近新用戶激增(4月份增長(zhǎng)約50萬)。

多年來,機(jī)器學(xué)習(xí)在構(gòu)建令人信服的聊天機(jī)器人方面并沒有取得很大進(jìn)展。從質(zhì)量上來說,現(xiàn)代語(yǔ)音助手或基于文本的聊天機(jī)器人聊天的體驗(yàn),直到最近才比jabberwacky(1986年)或cleverbot(1997年)等早期嘗試有較大改善。相反,現(xiàn)實(shí)世界的大多數(shù)用例很大程度上都依賴于規(guī)則.

雖然NLP在Siri、Alexa或Google Assistant等聊天機(jī)器人的語(yǔ)音轉(zhuǎn)文字方面有了很大突破,但與它們中的任何一個(gè)進(jìn)行交互,都會(huì)產(chǎn)生非常罐頭(千篇一律)的對(duì)談。這里要特別批評(píng)Cortana,它基本上把每個(gè)提問都放在Edge里搜索。不過GPT-3更人性化,有一天我們可能會(huì)見到學(xué)習(xí)模型的真正效用,并對(duì)對(duì)話式AI產(chǎn)生巨大影響。雖然這一點(diǎn)在用GPT-3的Replika上還并不明顯。

這可能是因?yàn)镽eplika目前正在A/B測(cè)試框架中使用GPT-3,這意味著你不會(huì)知道聊天機(jī)器人何時(shí)或是否使用新模型,因?yàn)殚_發(fā)人員在不同的方法下觀察用戶的反應(yīng)。它似乎仍然基于規(guī)則響應(yīng)和預(yù)置輸出來驅(qū)動(dòng)大多數(shù)對(duì)話。另一方面,它比老式的學(xué)習(xí)型聊天機(jī)器人要好控制,至少目前它還沒像微軟的Tay在2016年那樣搞出大新聞。

詳解人工智能領(lǐng)域重大突破:GPT-3

新老聊天機(jī)器人,左邊是Replika,右邊是cleverbot和jabberwacky

AIChannels是另一個(gè)采用OpenAI API的聊天機(jī)器人應(yīng)用。它希望成為一個(gè)"包容人類和AI代理的社交網(wǎng)絡(luò)"。網(wǎng)站上的信息很少,截至本文撰寫時(shí),網(wǎng)站上除了一個(gè)注冊(cè)表單外什么都沒有,但該平臺(tái)承諾有新聞聚合頻道、互動(dòng)小說頻道和模擬歷史人物聊天頻道。

其他的GPT-3應(yīng)用

功能演示,這些功能技術(shù)力更強(qiáng),坦率地說,更接近我們大多數(shù)人(不一定是作家)的生活。Paul Katsen將GPT-3整合到了Google Sheets中,用之前單元格中的內(nèi)容輸入GPT-3然后用于預(yù)測(cè)任意后續(xù)單元格中的內(nèi)容:國(guó)家人口、名人的twitter熱門等等。Actiondesk在他們的電子表格軟件中集成了一個(gè)非常類似的功能,從而形成了一個(gè)表面上看是Wolfram Alpha式的自然語(yǔ)言 "Ask Me Anything "功能。只要輸入AMA命令 "總?cè)丝跀?shù)",以及單元格參考,GPT-3就會(huì)填入它的最佳預(yù)測(cè)值。

當(dāng)然,對(duì)于從事軟件工程及相關(guān)領(lǐng)域工作的人來說,可能會(huì)產(chǎn)生疑問:"這個(gè)模型會(huì)不會(huì)砸了我的飯碗?"。所以有幾個(gè)人對(duì)GPT-3搞了一次技術(shù)面試,模擬了軟件工程師的整個(gè)招聘過程。結(jié)果并不太糟,但這模型可能進(jìn)不了二面。一些開發(fā)者還使用OpenAI API為Figma(一個(gè)協(xié)作性的用戶體驗(yàn)設(shè)計(jì)工具)構(gòu)建了文本到UI的插件(在這里和這里)。

在另一個(gè)項(xiàng)目中,Sharif Shameem正在構(gòu)建一個(gè)名為debuild.co的文本到基于網(wǎng)絡(luò)的應(yīng)用生成器。我們還沒有看到GPT-3被整合到tabnine的升級(jí)版和通用版中——tabnine是一個(gè)建立在GPT-2之上的重量級(jí)代碼自動(dòng)補(bǔ)全器——但它一定在路上了。如果人們繼續(xù)嘗試GPT-3/OpenAI API,現(xiàn)在對(duì)基于自然語(yǔ)言的編程的關(guān)注和發(fā)展繼續(xù)深化,那比起手寫代碼,編程變得更像游說也不是不可能。

GPT-3 遠(yuǎn)勝前輩

GPT-3比其小前輩GPT-2有相當(dāng)大的進(jìn)步,它還伴隨著了一些有趣的改變——OpenAI在放棄其非營(yíng)利性身份,轉(zhuǎn)而以有限合伙企業(yè)的方式運(yùn)營(yíng)后,構(gòu)建了新的機(jī)構(gòu)身份。該模型最明顯的惡意用途就是生成垃圾郵件;目前該模型的輸出文本在許多方面仍有不足之處,但完全滿足"雖糟糕但可信"的要求。這足以帶來互聯(lián)網(wǎng)所渴求的大量點(diǎn)擊率,為有算法的新聞流保持熱度。這種能力很容易被扭曲來兜售錯(cuò)誤信息而非正常產(chǎn)品。

由于推薦引擎中對(duì)利用目標(biāo)函數(shù)的優(yōu)化,我們已經(jīng)看到人們?cè)谛拍顚?duì)立上的加劇,這還主要是巨魔來寫釣魚內(nèi)容。在未來幾個(gè)月內(nèi),其他研究機(jī)構(gòu)、國(guó)家機(jī)器或企業(yè)不可避免地會(huì)復(fù)現(xiàn)大規(guī)模的GPT-3。當(dāng)這些GPT-3等效模型普及后,那些依賴算法新聞源的大型科技公司將真的不得不重新考慮他們提供和推廣內(nèi)容的方式(NB請(qǐng)切回時(shí)序時(shí)間軸)。

另一方面,GPT-3似乎能夠在大多數(shù)時(shí)候做很多某些時(shí)候GPT-2只能貽笑大方的事情。這個(gè)用來訪問大規(guī)模和強(qiáng)泛化模型的API,引入了一種令人耳目一新的方式來調(diào)參——即通過文本輸入來代替直接微調(diào)權(quán)重直接進(jìn)行精調(diào)。關(guān)注這種 "自然語(yǔ)言編程 "如何發(fā)展將會(huì)是不錯(cuò)得消遣。

上面提到的許多演示似乎威脅了不少人的生計(jì)。不過在大多數(shù)情況下,GPT-3這種規(guī)模或更大的模型更多的是對(duì)完成任務(wù)的補(bǔ)充,而不會(huì)斷了人們謀生的路子。

GPT-2,到現(xiàn)在才一年多一點(diǎn),參數(shù)就比GPT-3少100多倍。規(guī)模上的差異導(dǎo)致了一個(gè)模型在它能做什么和如何使用上產(chǎn)生了質(zhì)的不同。盡管OpenAI名望很高,但它還遠(yuǎn)不是最大的AI研究機(jī)構(gòu),他們也不是唯一有資源訓(xùn)練1750億參數(shù)語(yǔ)言模型的組織。即使以目前的硬件和模型訓(xùn)練基礎(chǔ)架構(gòu)來看,如果預(yù)算足夠,模型再擴(kuò)大幾個(gè)數(shù)量級(jí)并非天方夜譚。這對(duì)接下來的幾個(gè)SOTA語(yǔ)言模型意味著什么,其影響可能是什么,仍然不可預(yù)見。


雷鋒字幕組是一個(gè)由 AI 愛好者組成的翻譯團(tuán)隊(duì),匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新的見解。

團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長(zhǎng)。

詳解人工智能領(lǐng)域重大突破:GPT-3

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

詳解人工智能領(lǐng)域重大突破:GPT-3

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說