丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

本文作者: 我在思考中 2022-11-17 10:45
導(dǎo)語(yǔ):科研者的福音。
科研者的福音。

作者 | 施方圓

編輯 | 陳彩嫻

自人類邁入信息時(shí)代開(kāi)始,信息資源總量越來(lái)越多,信息過(guò)載的現(xiàn)象非常嚴(yán)重。

英國(guó)學(xué)者帶姆·喬丹曾說(shuō):“擁有太多信息使信息的利用變得不可能?!?美國(guó)工程師 Vannever Bush 也觀察到信息過(guò)載的情況,在上個(gè)世紀(jì)就提出通過(guò)計(jì)算機(jī)來(lái)解決日益龐大的信息量問(wèn)題。

Meta AI 新近推出的語(yǔ)言大模型 Galactica,正是在這樣的背景下誕生。

由于語(yǔ)言模型可以潛在地儲(chǔ)存、組織和推理科學(xué)知識(shí),所以語(yǔ)言模型可以作為一種工具幫人類處理大量的信息。例如,語(yǔ)言模型可以在一個(gè)文獻(xiàn)訓(xùn)練中發(fā)現(xiàn)不同研究中潛在的聯(lián)系,并讓這些見(jiàn)解浮出水面。Galactica 通過(guò)自動(dòng)生成二次內(nèi)容來(lái)整合知識(shí),將論文與代碼連接起來(lái),為科學(xué)研究提供動(dòng)力。

目前,Meta AI 已開(kāi)放了 Galactica 所有模型的源代碼。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟
論文地址:https://galactica.org/static/paper.pdf
github地址:https://github.com/paperswithcode/galai



1

精心設(shè)計(jì)的語(yǔ)料庫(kù)

近年來(lái),大型語(yǔ)言模型在 NLP 任務(wù)上取得了突破性的進(jìn)展。這些模型在大型通用語(yǔ)料庫(kù)上進(jìn)行自我監(jiān)督訓(xùn)練,并在數(shù)百個(gè)任務(wù)中表現(xiàn)良好。

但自監(jiān)督的一個(gè)缺點(diǎn)是傾向使用未經(jīng)整理的數(shù)據(jù),模型可能反映語(yǔ)料庫(kù)中的錯(cuò)誤信息、刻板印象和偏見(jiàn)等。對(duì)于重視真理的科學(xué)任務(wù)來(lái)說(shuō),這是不可取的,未經(jīng)整理的數(shù)據(jù)也意味著會(huì)浪費(fèi)更多算力預(yù)算。

Galactica 用一個(gè)大型科學(xué)語(yǔ)料庫(kù)訓(xùn)練一個(gè)單一的神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)不同的科學(xué)語(yǔ)言。Galactica 的語(yǔ)料庫(kù)包括了論文、參考資料、百科全書和其他學(xué)科資源的 1060 億個(gè) token 組成,集合了自然語(yǔ)言來(lái)源,如論文、教科書和自然序列,如蛋白質(zhì)序列和化學(xué)公式,能夠捕捉到 LATEX 并對(duì)其進(jìn)行處理,同時(shí)還用學(xué)術(shù)代碼捕捉計(jì)算科學(xué)。

與其他規(guī)模更大、未經(jīng)策劃的大型語(yǔ)言模型項(xiàng)目相比,Galactica 使用的數(shù)據(jù)集規(guī)模更小,而且是經(jīng)過(guò)精心策劃的,這很關(guān)鍵,即我們能否在一個(gè)經(jīng)過(guò)策劃和規(guī)范的語(yǔ)料庫(kù)上制造一個(gè)好的大型語(yǔ)言模型。如果可以,我們就能通過(guò)設(shè)置語(yǔ)料庫(kù)的內(nèi)容,更有目的性地設(shè)計(jì)出大型語(yǔ)言模型。

研發(fā)者們主要通過(guò)專業(yè)化標(biāo)記來(lái)設(shè)計(jì)數(shù)據(jù)集,這會(huì)形成不同的模態(tài),例如:蛋白質(zhì)序列是根據(jù)氨基酸殘基來(lái)寫的。研發(fā)團(tuán)隊(duì)還對(duì)不同模態(tài)進(jìn)行了專門的標(biāo)簽化。在處理好了數(shù)據(jù)集后,研發(fā)者們?cè)?Galactic 的解碼器設(shè)置中使用了 Transformer 架構(gòu),并進(jìn)行了以下修改:

GeLU 激活——對(duì)所有模型的尺寸都使用了 GeLU 激活;

上下文窗口——對(duì)所有的模型尺寸都使用了 2048 長(zhǎng)度的上下文窗口;

無(wú)偏差——遵循 PaLM ,不在任何密集核或?qū)右?guī)范中使用偏差;

學(xué)習(xí)的位置嵌入——對(duì)模型使用學(xué)習(xí)的位置嵌入,在較小的尺度上試驗(yàn)了 ALi Bi ,但沒(méi)有觀察到大的收益,所以研發(fā)者們沒(méi)有使用它;

詞語(yǔ)——使用 BPE 構(gòu)建了一個(gè)包含 50k 個(gè)標(biāo)記組成的詞匯表,詞匯量是由隨機(jī)選擇的 2% 的訓(xùn)練數(shù)據(jù)子集中產(chǎn)生的。



2

實(shí)驗(yàn)效果

研發(fā)者們還對(duì)大型語(yǔ)言模型作為科學(xué)模式和自然語(yǔ)言之間的橋梁的潛力進(jìn)行了初步調(diào)查,展示了 Galactica 可以通過(guò)自監(jiān)督來(lái)學(xué)習(xí) IUPAC 命名等任務(wù)。他們發(fā)現(xiàn),增加連接自然語(yǔ)言和自然序列的數(shù)據(jù)及數(shù)量和大小可能進(jìn)一步提高模型的性能。

研發(fā)者們認(rèn)為語(yǔ)言模型有更多潛力承擔(dān)目前人類所擅長(zhǎng)的事情。

而且為了考察 Galactica 吸收知識(shí)的情況,研發(fā)者們還建立了幾個(gè)知識(shí)探針的基準(zhǔn),并用于確定語(yǔ)料庫(kù)內(nèi)的知識(shí)差距,并告知如何確定語(yǔ)料庫(kù)內(nèi)的知識(shí)差距和迭代語(yǔ)料庫(kù)。

另外,Galactica 在推理方面表現(xiàn)十分出色,在數(shù)學(xué) MMLU 上的表現(xiàn)優(yōu)于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分別為 20.4% 和 8.8%。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

在經(jīng)過(guò)四個(gè) epoch 的訓(xùn)練之后,最大的 120B 參數(shù)模型從第五個(gè) epoch 才開(kāi)始過(guò)度擬合。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

盡管沒(méi)有接受過(guò)一般語(yǔ)料庫(kù)的訓(xùn)練,但 Galactica 在 BIG-bench 上的表現(xiàn)優(yōu)于 BLOOM 和 OPT-175B。根據(jù)評(píng)估,Galactica 的毒性也明顯低于其他語(yǔ)言模型。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟



3

Galactica 猶如自動(dòng)駕駛

Meta AI 發(fā)布 Galactica 后,在 AI 領(lǐng)域引起廣泛注意,并收獲了一眾好評(píng)。

Yann LeCun 評(píng)論:這個(gè)工具( Galactica )于論文寫作而言,就像輔助駕駛之于駕駛一樣,它不會(huì)幫你自動(dòng)寫論文,但它會(huì)在你寫論文的時(shí)候大大減輕你的認(rèn)知負(fù)擔(dān)。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

其他研究者則評(píng)論:

太神奇了!Galactica 甚至可以針對(duì)某個(gè)領(lǐng)域?qū)懺u(píng)論,推導(dǎo) SVM ,告訴我什么是線性回歸算法!只是生產(chǎn)內(nèi)容的長(zhǎng)度好像有限制?

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

真是太神奇了!我只是用這個(gè)來(lái)幫我寫“選擇性注意研究”評(píng)論——它看起來(lái)很不錯(cuò),也許下一步它就可以產(chǎn)生真正的想法!

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

50 多年來(lái),人類獲取科學(xué)知識(shí)的主要方式一直是通過(guò)存儲(chǔ)和檢索,信息的推理、組合、組織無(wú)法依靠機(jī)器,只能通過(guò)人的努力完成,這導(dǎo)致知識(shí)吞吐量存在瓶頸。在 Galactica 的實(shí)踐中,研發(fā)者們探討了語(yǔ)言模型可能如何破壞這種舊的形式,帶來(lái)人與知識(shí)的新接口。

從長(zhǎng)遠(yuǎn)來(lái)看,語(yǔ)言模型的上下文關(guān)聯(lián)能力可能會(huì)給搜索引擎帶來(lái)顯著優(yōu)勢(shì)。在 Galactica 的實(shí)踐中,研發(fā)者們還證明語(yǔ)言模型可以是一個(gè)精心策劃的知識(shí)庫(kù),執(zhí)行知識(shí)密集型的問(wèn)答任務(wù)。

更多內(nèi)容,點(diǎn)擊下方關(guān)注:
掃碼添加 AI 科技評(píng)論 微信號(hào),投稿&進(jìn)群:
AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

AI 大模型最新突破:幫科學(xué)家讀論文,小菜一碟

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)