丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

本文作者: AI研習(xí)社-譯站 2020-10-26 11:42
導(dǎo)語:我們期待評估框架與數(shù)據(jù)取得更進(jìn)一步的發(fā)展,使語言模型適用于各種任務(wù),為更多人提供優(yōu)質(zhì)服務(wù)。

譯者:AI研習(xí)社(季一帆

雙語原文鏈接:https://www.yanxishe.com/TextTranslation/2944


作者:谷歌研究院軟件工程師Kellie Webster

在過去的幾年中,自然語言處理(NLP)取得了長足的進(jìn)步,諸如BERT,ALBERT,ELECTRAXLNet等預(yù)訓(xùn)練語言模型在各種任務(wù)中均取得較高的準(zhǔn)確性。預(yù)訓(xùn)練語言模型以Wikipedia這樣的大型文本語料庫為訓(xùn)練集,通過遮掩一些單詞并對它們進(jìn)行預(yù)測來學(xué)習(xí)嵌入表示,即遮掩語言建模。實(shí)驗(yàn)結(jié)果表明,通過這樣的方式,可以對不同概念(如外科醫(yī)生和手術(shù)刀)間的豐富語義信息進(jìn)行編碼。訓(xùn)練完成后,經(jīng)過微調(diào)就可使模型適用特定任務(wù)的訓(xùn)練數(shù)據(jù),通過預(yù)訓(xùn)練嵌入實(shí)現(xiàn)分類等特定任務(wù)。鑒于這樣的預(yù)訓(xùn)練表示在不同NLP任務(wù)中得到廣泛采用,作為從業(yè)者,我們需要了解預(yù)訓(xùn)練模型如何對信息編碼以及學(xué)習(xí)到怎樣的相關(guān)性,這些又會怎樣影響下游應(yīng)用性能,這樣才不至于偏離我們的AI原則。

在“Measuring and Reducing Gendered Correlations in Pre-trained Models”,我們對BERT及精簡版的ALBERT進(jìn)行實(shí)例研究,討論了性別相關(guān)性,并為預(yù)訓(xùn)練語言模型的實(shí)踐應(yīng)用提供參考。我們在學(xué)術(shù)任務(wù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并將結(jié)果與一些常用模型做了對比,以驗(yàn)證模型實(shí)用性,并為進(jìn)一步的研究提供參考。我們后續(xù)會發(fā)布一系列checkpoints,從而可以在保持NLP任務(wù)準(zhǔn)確性的情況下減少性別相關(guān)性。

相關(guān)性衡量

為了解預(yù)訓(xùn)練表征中的相關(guān)性如何影響下游任務(wù),可以使用多種評估指標(biāo)來研究性別表征。在這里,我們采用共指消解討論測試結(jié)果,該方法旨在使模型能夠理解句子中給定代詞的正確先行詞, 例圖示句子中,模型要識別出他指護(hù)士而不是患者。

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

OntoNotesHovy等,2006)是最常用得標(biāo)準(zhǔn)驗(yàn)證數(shù)據(jù)集,同時F1分?jǐn)?shù)用來衡量模型在共指消解中的準(zhǔn)確性(Tenney等。2019)。由于OntoNotes僅表示一種數(shù)據(jù)分布,因此我們還使用WinoGender基準(zhǔn)測試,該基準(zhǔn)提供了一些其他數(shù)據(jù),通過該基準(zhǔn)可以判別性別和職業(yè)何時會產(chǎn)生錯誤的共指消解。WinoGender的得分較高(接近1),表明模型基于性別與職業(yè)間的關(guān)聯(lián)(如將護(hù)士與女性而不是男性關(guān)聯(lián))進(jìn)行決策;當(dāng)性別和職業(yè)之間沒有一致的關(guān)聯(lián)時(得分為零),此時模型決策基于句子結(jié)構(gòu)或語義等其他信息。

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

BERT和ALBERT在OntoNotes(準(zhǔn)確性)和WinoGender(性別關(guān)聯(lián))上的表現(xiàn)。WinoGender的值越低,表示模型在推理中較少關(guān)注性別信息。

研究發(fā)現(xiàn),BERTALBERT在WinoGender上都沒有零得分,而在OntoNotes上獲得了極高的準(zhǔn)確性(接近100%)。實(shí)驗(yàn)表明,在一些情況下,模型在推理決策中會考慮性別相關(guān)性。這符合我們的預(yù)期,模型可以使用多種線索來理解文本,可以只采用其中的一種或是選擇全部線索。當(dāng)然,在實(shí)際應(yīng)用中我們還是要謹(jǐn)慎,不能寄希望于模型根據(jù)先驗(yàn)的性別相關(guān)性進(jìn)行預(yù)測,其他可用信息對于預(yù)測也非常重要。

實(shí)踐指南

鑒于預(yù)訓(xùn)練模型嵌入中的隱式關(guān)聯(lián)有可能影響下游任務(wù),因此在開發(fā)新的NLP模型時,我們要考慮可以采取哪些措施來減輕這種風(fēng)險?

  • 隱式相關(guān)性的衡量非常重要:雖然可以使用準(zhǔn)確性度量來評估模型質(zhì)量,但是這樣度量方式僅從單一角度評估模型,在測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布相同時其不足尤為顯著。例如,BERT和ALBERT檢查點(diǎn)的準(zhǔn)確度相差1%以內(nèi),但使用性別相關(guān)性進(jìn)行共指解析的相對偏差為26%。這意味著,對于某些任務(wù),這樣的差異尤為重要。在處理一些反固定思維的文本時(如男護(hù)士),選擇WinoGender分?jǐn)?shù)較低的模型更加合理。

  • 更改任何模型配置時都要謹(jǐn)慎,哪怕看似影響不大:神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練由許多超參數(shù)控制,一般通過選擇合理的超參數(shù)以最大化訓(xùn)練目標(biāo)。盡管某些參數(shù)選擇看似不會對模型產(chǎn)生什么影響,但我們卻發(fā)現(xiàn),它們可能會導(dǎo)致性別相關(guān)性發(fā)生重大變化。例如,Dropout正則化用于避免模型的過度擬合,當(dāng)我們在BERT和ALBERT訓(xùn)練過程中增大Dropout參數(shù),即使進(jìn)行微調(diào),性別相關(guān)性還是會顯著降低。這意味著微小的配置更改就可以影響訓(xùn)練模型,從而降低相關(guān)性風(fēng)險,但同時也表明,在對模型配置進(jìn)行任何更改時,我們應(yīng)該謹(jǐn)慎行事、仔細(xì)評估。

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

在BERT和ALBERT訓(xùn)練過程中增大Dropout參數(shù)的影響


  • 相關(guān)性的緩解:前文以介紹了Dropout對性別相關(guān)性的影響,據(jù)此,我們進(jìn)一步推論得到通過這樣的方式可能減少額外的相關(guān)性:通過增加dropout參數(shù),我們可以改進(jìn)模型對WinoGender的推理方式,而無需手動指定任何內(nèi)容,甚至不需要更改微調(diào)階段。然而,隨著dropout的增加,OneNotes的準(zhǔn)確性也會開始下降(見BERT的結(jié)果),但我們認(rèn)為可以在預(yù)訓(xùn)練階段避免這種情況,通過更改dropout改進(jìn)模型,而無需針對特定任務(wù)進(jìn)行更新。在論文中,我們基于反事實(shí)數(shù)據(jù)增強(qiáng),提出了另一種具有差異化權(quán)重的緩解策略。

展望

我們認(rèn)為,以上這些實(shí)踐指南為開發(fā)強(qiáng)大的NLP系統(tǒng)提供了參考,從而使其適用于更廣泛的語言和應(yīng)用范圍。當(dāng)然,由于技術(shù)本身的不足,難以捕獲和消除所有潛在的問題。因此,在現(xiàn)實(shí)環(huán)境中部署的任何模型都應(yīng)經(jīng)過嚴(yán)格測試,即嘗試不同方法,并通過一些保護(hù)措施以確保符合道德規(guī)范,如Google的AI原則。我們期待評估框架與數(shù)據(jù)取得更進(jìn)一步的發(fā)展,使語言模型適用于各種任務(wù),為更多人提供優(yōu)質(zhì)服務(wù)。

致謝

本文的合作者包括Xuezhi Wang,Ian Tenney,Ellie Pavlick,Alex Beutel,Jilin Chen,Emily Pitler和Slav Petrov。同時感謝Fernando Pereira,Ed Chi,Dipanjan Das,Vera Axelrod,Jacob Eisenstein,Tulsee Doshi和James Wexler等人。


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

在預(yù)訓(xùn)練NLP模型上測量性別相關(guān)性

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說