丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

本文作者: 我在思考中 2022-06-14 10:37
導(dǎo)語:革自己的命!BIG-bench上評估谷歌自家模型,性能擊敗了PaLM之前所有。
又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……
作者 | 李梅、劉冰一
編輯 | 陳彩嫻

繼斯坦福100名作者合作發(fā)布「Foundation Model」研究綜述、智源集合100位作者發(fā)布大模型研究綜述(后被曝「翻車」)后,近日,AI 圈又出現(xiàn)了一篇集結(jié)超過百位作者合著的論文!

這篇論文(“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”)由谷歌發(fā)布,聚集了442名作者!

在論文的 PDF 文檔里,作者列表就占了一整頁:

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……
論文地址:https://arxiv.org/pdf/2206.04615.pdf
GitHub:https://github.com/google/BIG-bench

把所有名字排版在同一頁,若想找出某一作者名字還是挺考驗視力的。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

規(guī)模龐大,作者之一 William Fedus 感慨這還真是 It takes an army 啊。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

文章七七八八總計 100 頁,參考文獻從 51 頁開始,占篇幅的一半。

由于研究參與者人數(shù)太多了,一句兩句說不清楚誰的貢獻更大一些,干脆在文章專門設(shè)置一個章節(jié)闡述諸公心血。

篇幅不多,也就 15 頁。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

列舉的核心貢獻有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人,他們執(zhí)行大語言模型新基準 BIG-bench github 代碼基礎(chǔ)設(shè)施和文檔等工作。

還有Review的、提供任務(wù)的……

但是,這些特別提及的核心貢獻者并不在文章作者欄之首,因為本文沒有區(qū)分第一作者,作者欄順序是按姓氏字母順序排列的

推特上反響還不錯,有讀者說該工作“似乎是個金礦,非凡的合作 ??  ”。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

還有評論稱:“對組織者在推動這項工作完成方面的領(lǐng)導(dǎo)力表示極大的贊賞!令人興奮的大規(guī)模合作模式,造福整個社區(qū)?!?/span>

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

(好奇谷歌集結(jié)了這么多人合著,有沒有做「論文查重」?咱也不敢說,咱也不敢問)

那么,這篇工作究竟講了些什么?


1

大模型新基準:BIG-Bench

據(jù)了解,此文是谷歌將 BIG-Bench 的論文和 GitHub 公開。

BIG bench由 204 項任務(wù)組成,任務(wù)主題涉及語言學、兒童發(fā)展、數(shù)學、常識推理、生物學、物理學、社會偏見、軟件開發(fā)等等領(lǐng)域的問題。

在 Jeff Dean 等人架構(gòu)的 PaLM 模型中,研究人員在 BIG-Bench 的大模型專用基準上進行了多項任務(wù)測試。

該研究持續(xù)了 2 年時間上百人之中不乏工作單位變動的。

谷歌之所以推出大模型新基準,是因為隨著語言模型的規(guī)模不斷擴大,其性能得到了改進,一些新性能可能具有潛在的變革性影響,但還未得以明確。為了評估現(xiàn)存語言模型的性能和局限性,作者團隊特地引入了基準BIG-bench。

Beyond the Imitation Game 基準(BIG-bench)的GitHub 資源庫包括:

  • 超過 204 個語言任務(wù)。如 BIG-bench 審查標準那樣,基準任務(wù)涵蓋了不同的主題和語言,并且是目前的模型所不能完全解決的。

  • BIG-bench Lite:一個小型、且具有代表性的任務(wù)子集,比在整個基準上進行更快的評估。

  • 實現(xiàn)基準 API 的代碼:支持在公開可用的模型上進行任務(wù)評估,并實現(xiàn)新任務(wù)的輕量級創(chuàng)建。

  • 對規(guī)模橫跨六個數(shù)量級的密集和稀疏語言模型的詳細評估結(jié)果,以及由人類評估員建立的基線結(jié)果。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

BIG-bench支持兩種類型的任務(wù):JSON和編程任務(wù),其中大約80%的基準任務(wù)是JSON任務(wù)。

JSON任務(wù)由JSON文件定義,該文件包含由輸入和目標組成的示例列表。通過使用標準指標(如ROUGE)或基于模型分配的概率(如回答多項選擇題),將生成的模型輸出與目標進行比較來評估性能?;谑纠腏SON任務(wù)規(guī)范還允許進行簡單的少樣本評估。

另外大約20%的基準任務(wù)是程序化的,它們用Python編寫,能夠在多輪查詢中直接與模型交互,并且能夠使用自定義度量來衡量性能。使用模型對象調(diào)用編程任務(wù),可以使用以下方法查詢模型:

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……



2

BIG-bench 的評估發(fā)現(xiàn)

作者團隊在 BIG-bench 上評估了多個語言模型的能力,模型大小從數(shù)百萬到數(shù)千億個參數(shù),包括 OpenAI 的 GPT 模型、Google 內(nèi)部密集 transformer 架構(gòu)和 Switch 式稀疏transformer的性能等等。

盡管語言模型因其大規(guī)模而具有良好的性能,但相比于人類,它們在BIG-bench上的表現(xiàn)仍然很差。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

他們還評估了谷歌自家的PaLM模型,結(jié)果表明其性能擊敗了在PaLM之前的其他模型(狗頭),盡管PaLM仍然低于最好的人類評分者(如下圖中的深藍色虛線),但它已經(jīng)超過了BIG-bench Lite分區(qū)上平均人類評分者(如下圖中的藍色虛線)。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

在一些任務(wù)上,語言模型的性能隨規(guī)模的增大而平穩(wěn)提升;而在另一些任務(wù)上,語言模型會在某個特定規(guī)模上突然產(chǎn)生突破性的表現(xiàn)。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

經(jīng)過評估,他們還發(fā)現(xiàn),隨著模型規(guī)模的擴大,它們的社會偏見性越來越突出。對此,一個可能解釋是較大的模型在匹配其訓練集中的偏差方面做得更好。不過,當上下文清楚表明偏見不可取時,偏見就會隨著規(guī)模的擴大而減少。

這一結(jié)果強調(diào)了針對機器學習系統(tǒng)公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

要解決模型中的社會偏見問題,作者團隊給出三個發(fā)現(xiàn):1)在上下文廣泛或模棱兩可的情況下,偏見通常會隨著規(guī)模的擴大而增加;2)在狹窄、明確的上下文中,偏差會隨著規(guī)模的增大而減?。?)可以通過選擇適當?shù)奶崾緛硪龑?dǎo)偏見。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

圖注:對于明確或積極提示的上下文,偏差可能會隨著規(guī)模的變化而減少,或更穩(wěn)定

他們還發(fā)現(xiàn),模型在英語任務(wù)上的表現(xiàn)優(yōu)于非英語任務(wù),在涉及低資源語言的任務(wù)上表現(xiàn)尤其糟糕。在一些情況下,低資源語言任務(wù)的性能沒有隨著模型規(guī)模的增大而提高,而相應(yīng)的英語任務(wù)的性能則會隨著規(guī)模的增大而提高。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

總體上,稀疏模型的性能與使用多 2 倍推理成本的密集模型一樣好,它們的校準效果與使用多出約 10 倍推理計算的密集模型一樣好。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

當手動檢查模型輸出時,團隊發(fā)現(xiàn),模型在一定規(guī)模后開始生成電影標題,在更大的規(guī)模下會開始識別表情符號的語義,并且在某些情況下以最大的規(guī)模輸出正確的答案。一個有代表性的例子如下圖所示:

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

圖注:根據(jù)精確的任務(wù)指標,在 emoji_movie 識別上的表現(xiàn)會顯得很突然或漸進。

此外,他們發(fā)現(xiàn),模型的編程能力十分主觀。即使是通過具體的任務(wù)進行量化,語言模型的能力和跨規(guī)模的軌跡也比我們所想的要主觀得多。

再聯(lián)想這兩天吵得如火如荼的「AI 是否具備人格」……

大家怎么看?

參考鏈接:

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments
又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

又一篇超百名作者的 AI 論文問世!442位作者耗時兩年發(fā)布大模型新基準 BIG-bench……

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說