看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

本文作者：我在思考中

2023-01-17 11:08

導(dǎo)語(yǔ)：MLer 寒假也要卷起來(lái)。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

作者 | 李梅

編輯 | 陳彩嫻

機(jī)器學(xué)習(xí)領(lǐng)域的研究進(jìn)展迅速，研究者既要及時(shí)跟進(jìn)最新研究，也要不時(shí)地回顧經(jīng)典。寒假開始，各位機(jī)器學(xué)習(xí)er在度假之余，想必也不會(huì)忘了自己卷王的身份。

最近，Github上出現(xiàn)了一個(gè)名為“ML Papers Explained”的優(yōu)質(zhì)項(xiàng)目，精選了機(jī)器學(xué)習(xí)領(lǐng)域的一些核心概念，對(duì)相關(guān)工作的原始論文做了解讀，實(shí)在是廣大MLer的一大福利。

項(xiàng)目地址：https://github.com/dair-ai/ML-Papers-Explained

25個(gè)必學(xué)的ML概念

該項(xiàng)目由三位數(shù)據(jù) Rastogi、Diego Marinho、Elvis Saravia創(chuàng)建，旨在介紹機(jī)器學(xué)習(xí)領(lǐng)域重點(diǎn)技術(shù)的研究論文，既有經(jīng)典重現(xiàn)，也有最新前沿跟進(jìn)，突出論文的主要?jiǎng)?chuàng)新點(diǎn)，討論它們對(duì)研究領(lǐng)域的影響及其應(yīng)用空間。

該項(xiàng)目目前集合了25個(gè)機(jī)器學(xué)習(xí)概念，涉及計(jì)算機(jī)視覺(jué)、目標(biāo)檢測(cè)、文檔信息處理、自然語(yǔ)言處理等方向。按類別劃分，包括RCNN系列：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

Transformer系列（Layout Transformers、Document Information Processing、Vision Transformers）：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

以及Single Stage Object Detectors系列：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

點(diǎn)擊這些關(guān)鍵詞，就是一篇論文詳解，這些論文解讀大都不是長(zhǎng)篇累牘，而是簡(jiǎn)明扼要地介紹論文的核心發(fā)現(xiàn)、實(shí)驗(yàn)結(jié)果，同時(shí)有進(jìn)一步的延伸思考。文章的排版也清晰明了，能夠幫助研究者快速且深入理解一篇論文的精髓。這里選取兩篇解讀來(lái)一睹為快。

論文解讀示例

TinyBERT解讀

在大模型越來(lái)越成為AI核心研究方向的當(dāng)下，回顧這些經(jīng)典的語(yǔ)言模型論文是大有裨益的。比如自BERT模型出現(xiàn)以后，提高模型參數(shù)量的同時(shí)降低大模型的計(jì)算成本，就一直是該領(lǐng)域的一個(gè)熱點(diǎn)方向。

Github上的這個(gè)論文解讀項(xiàng)目就精選了多篇相關(guān)論文，以一篇對(duì)知識(shí)蒸餾方法TinyBERT的解讀為例：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

這項(xiàng)工作由年華中科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室合作，在2019年提出。這篇解讀概括了TinyBERT這項(xiàng)工作的三個(gè)核心貢獻(xiàn)：Transformer蒸餾、兩步蒸餾過(guò)程、數(shù)據(jù)增強(qiáng)，這些方法改進(jìn)了基于Transformer的模型在特定情況下的知識(shí)蒸餾效果。

首先是Transformer蒸餾。這部分介紹了論文所用蒸餾方法的核心思想和公式，并解釋了先前的蒸餾工作DistillBERT的弊端，如它使用教師模型來(lái)初始化學(xué)生模型的權(quán)重，導(dǎo)致兩者必須有相同的內(nèi)部尺寸并允許層數(shù)不同，而TinyBERT通過(guò)在嵌入和隱藏?fù)p失函數(shù)中引入可學(xué)習(xí)的投影矩陣來(lái)規(guī)避這個(gè)問(wèn)題，從而使得學(xué)生和教師模型的內(nèi)部表示在元素方面可以進(jìn)行比較。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

另外，解讀作者還在這里引用了另一項(xiàng)相關(guān)研究，為TinyBERT的進(jìn)一步工作提出了一個(gè)有趣的方向。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

然后是兩步蒸餾法。這里說(shuō)明了TinyBERT所使用的蒸餾過(guò)程遵循了原始BERT的訓(xùn)練方法——在大規(guī)模的通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以獲得語(yǔ)言特征，然后針對(duì)特定任務(wù)數(shù)據(jù)進(jìn)行微調(diào)。所以在第一個(gè)步驟中，使用在通用數(shù)據(jù)上訓(xùn)練的通用BERT作為教師，學(xué)生學(xué)習(xí)模仿教師的嵌入和轉(zhuǎn)換層激活來(lái)創(chuàng)建一個(gè)通用的TinyBERT；在第二個(gè)步驟中，將教師模型切換到特定任務(wù)模型并繼續(xù)訓(xùn)練學(xué)生模型。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

第三個(gè)是數(shù)據(jù)增強(qiáng)。這部分介紹了論文作者使用了數(shù)據(jù)增強(qiáng)技術(shù)來(lái)在微調(diào)步驟中對(duì)特定任務(wù)的數(shù)據(jù)集進(jìn)行擴(kuò)展。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

之后文章精簡(jiǎn)地呈現(xiàn)了原始論文中TInyBERT的關(guān)鍵數(shù)據(jù)，如該模型的性能在基準(zhǔn)測(cè)試中達(dá)到了BERT基礎(chǔ)教師模型的96%，同時(shí)體積縮小了7.5倍，速度提高了9.4倍。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

針對(duì)原始論文的三個(gè)核心貢獻(xiàn)，文章還給出了一些有價(jià)值的思考，如特定任務(wù)的蒸餾（微調(diào)）比通用蒸餾（預(yù)訓(xùn)練）更重要等等。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

Swin Transformer解讀

再比如當(dāng)年屠榜各大視覺(jué)任務(wù)的Swin Transformer，由微軟亞洲研究院郭百寧團(tuán)隊(duì)提出，是視覺(jué)領(lǐng)域的研究者必讀的一篇論文，這項(xiàng)工作也在這個(gè)論文解讀項(xiàng)目有精彩的分享：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

文章首先以原始論文中的關(guān)鍵圖表，簡(jiǎn)要介紹了Swin Transformer的基本方法及其核心設(shè)計(jì)元素。

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

然后邏輯清晰地詳解了Swin Transformer的架構(gòu)細(xì)節(jié)，包括4個(gè)stage和Swin Transformer Block

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

接著列出了Swin Transformer的幾項(xiàng)實(shí)驗(yàn)：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

有興趣的讀者可以自行前往該項(xiàng)目探索一番，如果想分享自己的論文解讀，也可以向該項(xiàng)目提交PR。據(jù)項(xiàng)目作者透露，后續(xù)還將推出notebook和講座，幫助大家更好地跟進(jìn)研究進(jìn)展。

更多內(nèi)容，點(diǎn)擊下方關(guān)注：

看懂這25個(gè)核心概念，就沒(méi)有啃不動(dòng)的機(jī)器學(xué)習(xí)論文

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章