丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

本文作者: 奕欣 2017-05-20 13:15 專題:雷峰網(wǎng)公開課
導(dǎo)語(yǔ):本期硬創(chuàng)公開課,雷鋒網(wǎng)榮幸地邀請(qǐng)到微軟亞洲研究院主管研究員秦濤博士,為我們講述對(duì)偶學(xué)習(xí)的新進(jìn)展。

雷鋒網(wǎng)按:眾所周知,大規(guī)模帶標(biāo)簽的數(shù)據(jù)對(duì)于深度學(xué)習(xí)尤為重要。在以圖像識(shí)別、機(jī)器翻譯等為代表的任務(wù)中,深度神經(jīng)網(wǎng)絡(luò)通過大量帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練。但這樣的前提存在兩個(gè)主要的局限性。首先是人工標(biāo)記數(shù)據(jù)的成本很高;其次是大規(guī)模標(biāo)記數(shù)據(jù)獲取的難度較大。

為了解決這一問題,在 NIPS 2016 上,微軟亞洲研究院提出了“一種新的機(jī)器學(xué)習(xí)范式”——對(duì)偶學(xué)習(xí),利用任務(wù)互為對(duì)偶的特點(diǎn)從無(wú)標(biāo)注的數(shù)據(jù)中進(jìn)行學(xué)習(xí)。它的訓(xùn)練原理是怎樣,具體有哪些應(yīng)用前景,近期又有著怎樣的進(jìn)展?本期硬創(chuàng)公開課,雷鋒網(wǎng)榮幸地邀請(qǐng)到微軟亞洲研究院主管研究員秦濤博士,為我們講述對(duì)偶學(xué)習(xí)的新進(jìn)展。雷鋒網(wǎng)做了不改動(dòng)原意的整理與編輯,并邀請(qǐng)了秦濤博士核對(duì)確認(rèn),在此表示感謝。

嘉賓介紹

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

秦濤博士,微軟亞洲研究院主管研究員,在國(guó)際會(huì)議和期刊上發(fā)表學(xué)術(shù)論文100余篇,曾/現(xiàn)任機(jī)器學(xué)習(xí)及人工智能方向多個(gè)國(guó)際大會(huì)領(lǐng)域主席或程序委員會(huì)成員,曾任多個(gè)國(guó)際學(xué)術(shù)研討會(huì)聯(lián)合主席。秦濤博士是中國(guó)科學(xué)技術(shù)大學(xué)兼職博士生導(dǎo)師,IEEE、ACM會(huì)員。他的團(tuán)隊(duì)的研究重點(diǎn)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的算法設(shè)計(jì)、理論分析及在實(shí)際問題中的應(yīng)用。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

大家晚上好,很高興能有這樣一個(gè)機(jī)會(huì)和大家分享微軟最近的一些研究成果。首先非常感謝雷鋒網(wǎng)提供硬創(chuàng)公開課的平臺(tái),同時(shí)也感謝各位朋友這么晚還來(lái)參加這個(gè)線上活動(dòng)。我今天報(bào)告的題目是對(duì)偶學(xué)習(xí),主要想闡述的是人工智能的對(duì)稱之美。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

先做一個(gè)簡(jiǎn)單的自我介紹,我叫秦濤,是微軟亞洲研究院機(jī)器學(xué)習(xí)組的主管研究員。首先我將介紹下我們組所做的事情。

DRL團(tuán)隊(duì)介紹

我們組主攻方向是機(jī)器學(xué)習(xí),有好幾個(gè)小團(tuán)隊(duì),涵蓋了多個(gè)機(jī)器學(xué)習(xí)的方向。我們有一個(gè)團(tuán)隊(duì)側(cè)重于分布式機(jī)器學(xué)習(xí)平臺(tái)、架構(gòu)及算法實(shí)現(xiàn),我們做了很多開源的項(xiàng)目,包括微軟認(rèn)知工具包(原名: CNTK) 及分布式計(jì)算平臺(tái) DMTK 等,這些項(xiàng)目都可以在 GitHub 上找到。

我們除了做平臺(tái)外,另一個(gè)研究方向是機(jī)器學(xué)習(xí)算法,包括兩個(gè)團(tuán)隊(duì):

  • 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)算法團(tuán)隊(duì);

  • 符號(hào)學(xué)習(xí)團(tuán)隊(duì),即希望把一些邏輯、推理包括知識(shí)圖譜的內(nèi)容與深度學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)結(jié)合起來(lái)。

我們還有一個(gè)團(tuán)隊(duì)側(cè)重于機(jī)器學(xué)習(xí)理論。我們始終認(rèn)為,機(jī)器學(xué)習(xí)作為一個(gè)研究方向,不僅是算法和應(yīng)用,也需要對(duì)學(xué)習(xí)的理論進(jìn)行理解與認(rèn)識(shí)。

具體到我?guī)У纳疃葘W(xué)習(xí)與強(qiáng)化學(xué)習(xí)團(tuán)隊(duì),主要課題如同 PPT 上所示的,有四個(gè)大方向。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)偶學(xué)習(xí)是非常重要的一個(gè)方向,也是我待會(huì)會(huì)重點(diǎn)介紹的內(nèi)容。

第二個(gè)很重要的方向是輕量級(jí)快速算法。目前深度學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的訓(xùn)練需要非常多的數(shù)據(jù),非常長(zhǎng)的訓(xùn)練時(shí)間及大量計(jì)算資源如GPU。我們?cè)O(shè)計(jì)了一些快速算法,能達(dá)到同樣的精度或是相近的精度。

第三個(gè)方向是自主學(xué)習(xí)。我們意識(shí)到深度學(xué)習(xí)本身效果可以做得很好,但需要研究者或?qū)嵺`者具備一定的經(jīng)驗(yàn),知道如何調(diào)各種超參數(shù),比如網(wǎng)絡(luò)結(jié)構(gòu)如何設(shè)計(jì),每層多少節(jié)點(diǎn),是否要用 residual connection/skip connection,卷積或 recurrent connection,包括優(yōu)化過程中需不需要做各種各樣的 SGD 算法,learning rate 怎么做 decay。這些對(duì)結(jié)果都會(huì)有很大影響。

當(dāng)我們面臨一個(gè)新的數(shù)據(jù)集時(shí),可能我們需要花很多時(shí)間和代價(jià)才能得到一個(gè)好的模型。因?yàn)樾枰龊芏喑瑓?shù)的 tuning.

我們自主學(xué)習(xí)的理念有點(diǎn)像在模仿自動(dòng)駕駛,也就是說(shuō),能否通過學(xué)習(xí)的方式,來(lái)解決超參數(shù)的tuning問題?

此外,我們團(tuán)隊(duì)還會(huì)做深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的相關(guān)應(yīng)用,主要涵蓋三個(gè)方面,包括:

  • 語(yǔ)言理解(語(yǔ)言模型、文本分類、機(jī)器翻譯、文本生成等)、圖像理解(圖像分類、生成、描述等)

  • 游戲(麻將、橋牌等)

  • 金融科技

接下來(lái)我將進(jìn)入今天的分享主題:對(duì)偶學(xué)習(xí)。

對(duì)偶學(xué)習(xí)

在介紹對(duì)偶學(xué)習(xí)之前,我想先介紹一下 AI 的發(fā)展。大家從很多媒體報(bào)道可以了解到,AI從 1956 年誕生以來(lái)至今已經(jīng) 61 年,期間歷經(jīng)風(fēng)雨包括兩次高峰與兩次低谷,到目前為止我們處于第三次的上升期,并且這一次的高峰可能還未到達(dá)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

AI 在很多實(shí)際應(yīng)用中取得了很好的成績(jī),特別是在很多具體的任務(wù)上打敗了人類水平。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

因此我們可以說(shuō),現(xiàn)在正是 AI 的黃金時(shí)代。不僅僅因?yàn)樗玫搅苏奶岢头鲋玻趯W(xué)術(shù)圈是一個(gè)比較火的研究方向,更重要的是它在工業(yè)界的實(shí)際問題中取得了非常令人矚目的成績(jī),比如:

  • 微軟亞洲研究院在 2015 年 ImageNet 上提出的深度殘差網(wǎng)絡(luò),第一次使得圖像識(shí)別水平超過人類的平均水平,top 5 的錯(cuò)誤率達(dá)到了 3.5%,而人類的水平差不多是 5.1%。

  • 而在語(yǔ)音識(shí)別領(lǐng)域,在去年 10 月,微軟的語(yǔ)音識(shí)別系統(tǒng)在日常對(duì)話數(shù)據(jù)上,達(dá)到了 5.9% 的水平,首次取得與人類相當(dāng)?shù)淖R(shí)別精度。

  • 游戲領(lǐng)域上,DeepMind 的 AlphaGo 打敗了李世石,包括今年化名為「Master」也打敗了很多圍棋高手。今年 5 月下旬,AlphaGo 也會(huì)與中國(guó)頂級(jí)棋手進(jìn)行對(duì)戰(zhàn)(雷鋒網(wǎng)屆時(shí)也將赴現(xiàn)場(chǎng)報(bào)道)。

雖然 AI (特別是以深度學(xué)習(xí)為代表)取得了非常大的成功,但它也面臨著很多挑戰(zhàn)。對(duì)于研究者而言,不僅要看它取得了哪些成績(jī),還要看它存在哪些問題,有哪些方向需要我們進(jìn)行研究和推進(jìn)。我們總結(jié)了當(dāng)前 AI 或深度學(xué)習(xí)所面臨的一些主要的挑戰(zhàn),也是我們組目前研究的方向。

AI 目前所面臨的挑戰(zhàn)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

  • 大數(shù)據(jù),代價(jià)高昂

    目前的 AI 非常依賴大數(shù)據(jù),特別是大量的人工標(biāo)注的數(shù)據(jù),但這些數(shù)據(jù)代價(jià)高,且在某些領(lǐng)域內(nèi)數(shù)據(jù)很難獲得。

  • 大模型,使用不便

    深度學(xué)習(xí)的模型一般體量很大,可能達(dá)到上千萬(wàn)、上億、上十億參數(shù)的規(guī)模,一個(gè)模型大概是幾百兆。如果在云端或是自己的 PC 上使用,問題不大,但如果想在移動(dòng)設(shè)備(手機(jī)、物聯(lián)網(wǎng)設(shè)備)上使用,就面臨各種問題。比如手機(jī)輸入法,如果用深度神經(jīng)網(wǎng)絡(luò),表現(xiàn)會(huì)更好,但很多時(shí)候,光一個(gè)語(yǔ)言模型就要達(dá)到上百兆,對(duì)用戶而言一個(gè)手機(jī)輸入法需要加載上百兆的模型是一件挺難接受的事,會(huì)導(dǎo)致響應(yīng)速度、memory、耗電量等多個(gè)問題。

  • 大計(jì)算,時(shí)不我待

    訓(xùn)練一個(gè)深度模型很花時(shí)間。以 AlphaGo 為例,論文里講到需要一個(gè)月左右的訓(xùn)練時(shí)間。如果有很多參數(shù)、超參數(shù)需要調(diào)節(jié),算法的迭代速度會(huì)變得很慢。時(shí)間很多時(shí)候是比錢更寶貴的,雖然我們可以同時(shí)用很多 GPU訓(xùn)練,但還是需要好幾周的訓(xùn)練時(shí)間才能得到一個(gè)模型。如此長(zhǎng)的訓(xùn)練時(shí)間不管是對(duì)于大公司的產(chǎn)品迭代,還是創(chuàng)業(yè)公司的快速發(fā)展,都是一個(gè)很大的制約因素。

  • 蠻力解法,似是而非

    現(xiàn)在的深度學(xué)習(xí)更像是一種「蠻力求解」,主要靠的是數(shù)量取勝,也就是說(shuō),由非常多的數(shù)據(jù)、參數(shù)、計(jì)算量堆砌起來(lái)。人做計(jì)算的功耗相對(duì)而言非常低,而人的學(xué)習(xí)過程也不需要那么大的數(shù)據(jù)量。舉個(gè)例子,比如說(shuō)開車,現(xiàn)在駕校標(biāo)準(zhǔn)的上課時(shí)間也就幾十個(gè)小時(shí),但特斯拉的無(wú)人駕駛汽車在路上跑了幾百萬(wàn)小時(shí),依然不能達(dá)到和人類一樣的水平。因此,深度學(xué)習(xí)是否能結(jié)合人的一些知識(shí)提升學(xué)習(xí)速度,也是一個(gè)值得研究的問題。

  • 調(diào)參黑科技,難言之隱

    深度學(xué)習(xí)有點(diǎn)類似于「黑科技」,參數(shù)調(diào)節(jié)是非常微妙的,比如一個(gè)參數(shù)的初始化非常依賴經(jīng)驗(yàn)或感覺,這使得目前的深度學(xué)習(xí)不太像嚴(yán)格意義上的科學(xué),更像是一種藝術(shù)。那么我們能否尋找到一種自動(dòng)化調(diào)參的方法,讓人工的干預(yù)越少越好。這樣一來(lái),我們也更方便將深度學(xué)習(xí)技術(shù)應(yīng)用到新的場(chǎng)景中。

  • 黑盒系統(tǒng),不明就里

    隨著模型深度和參數(shù)的增加,深度學(xué)習(xí)系統(tǒng)也會(huì)出現(xiàn)一些問題。此前某個(gè)互聯(lián)網(wǎng)公司推出了圖像分類的服務(wù),但當(dāng)時(shí)誤將黑人判斷為猩猩,引起了種族歧視的社會(huì)輿論,雖然這并不是企業(yè)的初衷,只是技術(shù)上出現(xiàn)了問題。這件事情實(shí)際上是因?yàn)樯疃葘W(xué)習(xí)系統(tǒng)是一個(gè)黑盒系統(tǒng),技術(shù)人員難以預(yù)計(jì)一個(gè)黑盒子系統(tǒng)在使用中會(huì)出什么問題,以及解釋為什么會(huì)出某個(gè)問題,也就很難在問題出現(xiàn)之前進(jìn)行防范。因此,如果我們能讓深度學(xué)習(xí)系統(tǒng)從黑盒子變成白盒子,具備可解釋性及可修正性,自然讓人工智能和深度學(xué)習(xí)有更大的應(yīng)用空間。

  • 一階智能,非我所思

    現(xiàn)在的深度學(xué)習(xí)更像是一種「一階智能」,即考慮靜態(tài)任務(wù)(圖像分類、語(yǔ)音識(shí)別)。但人類在社會(huì)中所面臨的問題,比如自動(dòng)駕駛、金融等領(lǐng)域,涉及的情況更加復(fù)雜。在面臨決策時(shí),人們不僅會(huì)考慮自己如何做選擇,也常常會(huì)考慮其它人如何選擇。

    比如,當(dāng)前的路堵車了,我是否要選擇另一條路,但與此同時(shí),可能別人也會(huì)選擇同樣的做法,那么是否會(huì)導(dǎo)致另外一條路更堵?

    比如炒股,如果你要比別人獲得更好的收益,那么不僅要考慮自己如何買入賣出,還要考慮其它人看好什么股票,他們買入賣出的時(shí)間節(jié)點(diǎn)是什么。

    這實(shí)際上是人類在做決策時(shí)的一個(gè)博弈過程。目前深度學(xué)習(xí)的成功,包括圖像識(shí)別、語(yǔ)音識(shí)別,還是處于一階智能。那么可能我們需要考慮的是,如果同時(shí)有多個(gè) AI 在一個(gè)系統(tǒng)中相互作用,會(huì)有什么二階效應(yīng),該如何解決這個(gè)問題。

對(duì)偶學(xué)習(xí)的提出

對(duì)偶學(xué)習(xí)的提出,主要是為了應(yīng)對(duì)第一個(gè)挑戰(zhàn),即大數(shù)據(jù)的問題。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

舉些例子:

  • ImageNet 中標(biāo)注過的訓(xùn)練樣本量,大概是 120 萬(wàn)張圖片;

  • 語(yǔ)音識(shí)別領(lǐng)域需要成千上萬(wàn)小時(shí)的語(yǔ)料數(shù)據(jù);

  • 機(jī)器翻譯里面需要上千萬(wàn)雙語(yǔ)句對(duì)來(lái)訓(xùn)練;

  • 圍棋,如 AlphaGo,需要上千萬(wàn)的職業(yè)棋手的比賽落子記錄。

而目前,大量的人工標(biāo)注數(shù)據(jù)存在幾個(gè)問題:

首先是標(biāo)注代價(jià)高;

其次是某些應(yīng)用領(lǐng)域很難拿到數(shù)據(jù),如癌癥數(shù)據(jù)(需要與醫(yī)院合作),而因?yàn)樯婕皞€(gè)人隱私,病人可能不愿意共享數(shù)據(jù)。

我們可以估計(jì)一下機(jī)器翻譯標(biāo)注數(shù)據(jù)的代價(jià)。目前市場(chǎng)上請(qǐng)專家翻譯,是按照每個(gè)詞進(jìn)行計(jì)費(fèi), 5-10 美分/詞,那么我們按市場(chǎng)平均價(jià) 0.075 美元,一個(gè)句子平均 30 個(gè)詞來(lái)算,如果我們需要翻譯 1000 萬(wàn)句話,那么花費(fèi)會(huì)達(dá)到 2250 萬(wàn)美金。

不過有人認(rèn)為,其實(shí)這個(gè)成本也還能接受。但像微軟這樣的公司,通常提供的是幾十種甚至上百種語(yǔ)言的互譯。如果僅僅考慮 100 種語(yǔ)言的互譯,數(shù)據(jù)標(biāo)注可能就已經(jīng)需要超過 1000 億美元了。

因?yàn)闃?biāo)注數(shù)據(jù)的代價(jià)如此大,研究人員也提出了不同的解決方案來(lái)降低對(duì)標(biāo)注數(shù)據(jù)的依賴。目前互聯(lián)網(wǎng)非常發(fā)達(dá),沒有標(biāo)注的數(shù)據(jù)量非常大,如何利用這些無(wú)標(biāo)注的數(shù)據(jù)輔助機(jī)器學(xué)習(xí)呢?這些方法包括:

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

  • Label Propagation(標(biāo)簽傳播):以圖像分類為例,如果只有一萬(wàn)張標(biāo)注數(shù)據(jù),但我想獲得 100 萬(wàn)張標(biāo)注數(shù)據(jù),怎么辦?我可以從網(wǎng)上抓取到很多圖像,如果一個(gè)未標(biāo)注的圖像A和標(biāo)注的圖像B很相似,那么就認(rèn)為圖像A具有和B相同的類別標(biāo)簽。這樣就可以給很多未標(biāo)注的數(shù)據(jù)加上標(biāo)簽,增加訓(xùn)練的數(shù)據(jù)量。

  • Transductive learning (轉(zhuǎn)導(dǎo)學(xué)習(xí)):一種半監(jiān)督學(xué)習(xí)的方法。

  • Multi-task Learning (多任務(wù)學(xué)習(xí)):每個(gè)任務(wù)都有自己的標(biāo)注數(shù)據(jù),那么多個(gè)任務(wù)在訓(xùn)練時(shí)可以共享這些數(shù)據(jù),從而每個(gè)任務(wù)訓(xùn)練自己的模型時(shí)都能看到更多的數(shù)據(jù)。

  • Transfer Learning (遷移學(xué)習(xí)):這也是最近比較火的一種訓(xùn)練方法。比如我有一個(gè)標(biāo)注數(shù)據(jù)較少的目標(biāo)任務(wù)(target task),但我的另一個(gè) source task 的標(biāo)注數(shù)據(jù)量比較充足,那么我們可以通過模型的遷移或?qū)?shù)據(jù)通過變換借鑒過來(lái),以輔助 target task 的學(xué)習(xí)。

對(duì)偶學(xué)習(xí):一種新的視角

我們采用一種新的視角來(lái)應(yīng)對(duì)標(biāo)注數(shù)據(jù)不足的問題,我們稱其為人工智能的對(duì)稱之美。其實(shí)大自然鐘愛對(duì)稱之美,例如生物構(gòu)造(蝴蝶、人臉),人類也偏愛對(duì)稱之美,比如泰姬陵、中國(guó)的故宮、太極。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)稱結(jié)構(gòu)不僅存在于自然界,在 AI 的任務(wù)中也廣泛存在。比如:

  • 機(jī)器翻譯,有英翻中和中翻英的對(duì)稱;

  • 語(yǔ)音處理,需要語(yǔ)音轉(zhuǎn)文字(語(yǔ)音識(shí)別),也有文本轉(zhuǎn)語(yǔ)音(語(yǔ)音合成)的任務(wù);

  • 圖像理解,圖像描述(image captioning)與圖像生成 (image generation)也是一個(gè)對(duì)稱的過程。

  • 對(duì)話任務(wù):?jiǎn)栴}回答(Question answering)與問題生成(Question generation)

  • 搜索引擎:文本匹配查詢(Query-document matching)與廣告關(guān)鍵詞推薦服務(wù)(Query/keyword suggestion)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)偶學(xué)習(xí)的基本思想,實(shí)際上是一個(gè)新的學(xué)習(xí)范式,利用 AI 任務(wù)的對(duì)稱屬性(primal-dual)使其獲得更有效的反饋/正則化,從而引導(dǎo)、加強(qiáng)學(xué)習(xí)過程(特別是在數(shù)據(jù)量少的情況下)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

如何從零或非常少的訓(xùn)練數(shù)據(jù)中進(jìn)行對(duì)偶學(xué)習(xí)?

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

這是我們發(fā)表在 NIPS 2016 的一個(gè)工作,主要是以機(jī)器翻譯為目標(biāo)。

以機(jī)器翻譯為例,我們手頭有兩個(gè)智能體,一個(gè)只懂英文不懂中文,另一個(gè)反之。我們希望同時(shí)訓(xùn)練英翻中和中翻英的模型。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

首先,拿到一個(gè)無(wú)標(biāo)注的英文句子,我們并不知道微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的正確中文翻譯。我們通過 primal model 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié);翻譯成一個(gè)中文句子 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。

因?yàn)槲覀儧]有進(jìn)行標(biāo)注,因此無(wú)從判斷句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的正誤。但懂中文的智能體可以判斷作為一個(gè)中文句子,微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)是否為一個(gè)通順的、語(yǔ)法正確的句子。因此,懂中文的智能體可以給出一個(gè) partial feedback,反饋句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的質(zhì)量如何。

隨后,我們通過對(duì)偶模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),將中文句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)再翻譯為英文句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。懂英文的智能體收到這個(gè)句子后,它可以比較微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的相似度。如果 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的表現(xiàn)很好,那么 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)應(yīng)該非常相近。如果反之,可能模型就需要改進(jìn)。

這個(gè)過程實(shí)際上非常像強(qiáng)化學(xué)習(xí)的過程。在訓(xùn)練過程中,沒有人告訴機(jī)器某個(gè)狀態(tài)下正確的 action 是什么,只能通過「試錯(cuò)-反饋」的過程來(lái)反復(fù)嘗試。

以圍棋為例子,可能需要走上百步才能知道輸贏,但通過最終的反饋,就能訓(xùn)練提高這個(gè)模型的優(yōu)劣。對(duì)于我們機(jī)器翻譯在 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 的狀態(tài)下,我們無(wú)從知道正確的 action 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)是什么,因此只能通過已有的 policy 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)來(lái) take action 得到 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),再用另一個(gè) policy 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 得到微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié), 從而通過比較微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)獲得反饋。這實(shí)際上也是一個(gè)不斷試錯(cuò)的過程,而且像強(qiáng)化學(xué)習(xí)一樣,是具有延遲的反饋,最開始采取第一個(gè) action 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 時(shí),只能獲得部分反饋,只有到流程結(jié)束,才能獲得更有效的完整反饋,比如說(shuō)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的相似性。

Policy Gradient

因此,像強(qiáng)化學(xué)習(xí)的一些算法,都可以直接用于訓(xùn)練更新模型微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。我們的工作中用了一個(gè)叫策略梯度 policy gradient 的方法。它實(shí)際上是強(qiáng)化學(xué)習(xí)的一類方法。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

簡(jiǎn)單說(shuō)來(lái),它的基本思想是,當(dāng)采取某個(gè)行動(dòng)(action)獲得了一個(gè)反饋/reward 后,如果反饋不錯(cuò),那么我們會(huì)調(diào)整模型,使下一次采取同樣行動(dòng)的概率變大,如果反饋不好,那么我們就需要更新模型,降低我們采取同樣行動(dòng)的概率。在算法上的實(shí)際,我們會(huì)對(duì) primal model 和 dual model 求梯度,如果反饋好,我們會(huì)把梯度加到模型上,增加這個(gè) action 的概率;反之,我們會(huì)將梯度減去,減少這個(gè) action 出現(xiàn)的概率。

舉個(gè)簡(jiǎn)單例子,微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 為「Policy gradient methods are popular in reinforcement learning」,而得到的微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 在語(yǔ)法上一看就有問題,從而我們發(fā)現(xiàn)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)并不理想,因此希望更新微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 的參數(shù),通過減去梯度,使不好 action 出現(xiàn)的概率變小。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

而在新的一輪迭代中,我們發(fā)現(xiàn) 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 和 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)都不錯(cuò),那么通過加上梯度,使得讓好的 action 出現(xiàn)的概率變大。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

雙語(yǔ)翻譯

在英法翻譯的實(shí)驗(yàn)上,雙語(yǔ)標(biāo)注的數(shù)據(jù)大概有 1200 萬(wàn)個(gè)句對(duì),目前機(jī)器翻譯最好的算法是基于深度神經(jīng)網(wǎng)絡(luò)(Neural Machine Translation),如果用 100% 的雙語(yǔ)句對(duì)做訓(xùn)練,NMT 能達(dá)到 30 分的 BLEU score(滿分為 100 分),如果只用 10% 的標(biāo)注數(shù)據(jù)訓(xùn)練的話,NMT 的表現(xiàn)能達(dá)到 25 分;而在同樣 10% 的數(shù)據(jù)下,采用對(duì)偶學(xué)習(xí)的思想進(jìn)行訓(xùn)練,得分能達(dá)到 30 以上。也就是說(shuō),我們只用 10% 的雙語(yǔ)數(shù)據(jù)就達(dá)到了 NMT 采用 100% 數(shù)據(jù)的準(zhǔn)確度。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

前面我們估計(jì)過,1000 萬(wàn)雙語(yǔ)標(biāo)記的數(shù)據(jù)耗費(fèi)大概為 2200 萬(wàn)美元,而如果只需要 10% 就能達(dá)到同樣的效果,我們只需要花 200 萬(wàn)美元。有點(diǎn)夸張地說(shuō),我們可以節(jié)省 2000 萬(wàn)美元的標(biāo)注費(fèi)用,非常可觀。這個(gè)實(shí)驗(yàn)結(jié)果表明,對(duì)偶學(xué)習(xí)利用無(wú)標(biāo)注數(shù)據(jù)的效率還是非常高的。

語(yǔ)音處理、圖像處理及問題生成

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

同樣的思想也可以應(yīng)用于語(yǔ)音處理中,primal task 指的是語(yǔ)音識(shí)別,而 dual task 則是語(yǔ)音合成,微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是一個(gè)文本(句子),那么我們就能判斷 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 的語(yǔ)法是否正確,語(yǔ)言的模型得分如何,進(jìn)而判斷 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 和 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的相似度。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

圖像和文本之間的相互轉(zhuǎn)換,問題回答與問題生成,也可以用同樣的方式實(shí)現(xiàn)。我們有同事已經(jīng)在這個(gè)領(lǐng)域做過一些嘗試,也得到了很不錯(cuò)的結(jié)果。

image-to-image translation

這個(gè)工作我們發(fā)表在 NIPS 2016 上,有很多研究人員把對(duì)偶學(xué)習(xí)的思想推廣應(yīng)用到其它領(lǐng)域。比如這個(gè)叫「image-to-image translation」的任務(wù),將兩種不同的圖像相互轉(zhuǎn)換,比如將素描轉(zhuǎn)換為一個(gè)照片(生成器 A),或是反過來(lái),將照片轉(zhuǎn)換為素描(生成器 B)。通過生成器 A 和生成器 B 的兩次生成,我們希望原始素描與最后生成的素描越相似越好?;蚴欠催^來(lái),通過生成器 B 和生成器 A 的先后兩次生成,我們希望原始照片與最后生成的照片的重構(gòu)誤差越小越好。對(duì)偶學(xué)習(xí)和 GAN相結(jié)合,可以得到很好的結(jié)果。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

下圖所示的是 Architecture label 的 photo translation 訓(xùn)練結(jié)果,第一列指的是原始 input 的 sketch(素描),第二列就是真實(shí)圖片的樣子,第三列就是 DualGAN 得到的結(jié)果,而第四列則是只用 GAN 訓(xùn)練得到的結(jié)果,第五列則是 cGAN,是訓(xùn)練標(biāo)注數(shù)據(jù)所得到的結(jié)果。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

第二行中,我們可以看到,中間 DualGAN 的結(jié)果比 GAN 及 cGAN 的結(jié)果都要好,比如第二行 GAN 的上半部分細(xì)節(jié)丟失得比較嚴(yán)重;而第三行中 DualGAN 生成的門相對(duì)比較清楚,而 GAN 和 cGAN 生成的門相對(duì)比較模糊。從實(shí)驗(yàn)結(jié)果的比對(duì)中我們可以看到,DualGAN 的效果相對(duì)要好不少。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

此外還有一個(gè)是從照片到素描(photo to sketch)的比對(duì)結(jié)果,同樣地,第一列指的是原始 input 的 sketch(素描),第二列是真實(shí)圖像,后面三列分別是 DualGAN、GAN 和 cGAN 的訓(xùn)練結(jié)果。DualGAN 在細(xì)節(jié)上更加清楚,我們可以看到 GAN 甚至某些地方都變形了,而 cGAN 也有不少細(xì)節(jié)(特別是眼睛)不夠清楚。

Face Attribute Manipulation

此外,我們還注意到另一個(gè)工作,它也是借鑒了對(duì)偶學(xué)習(xí)的思想,叫「Face Attribute Manipulation」,即圖像處理方面的一些工作。比如說(shuō),有個(gè)人戴著墨鏡,那么我們會(huì)希望「腦補(bǔ)」出對(duì)方摘下墨鏡的樣子?;蚴欠催^來(lái),在淘寶上看到一個(gè)墨鏡,想知道自己戴上墨鏡會(huì)是什么樣子。把墨鏡從人臉上去掉或戴上,實(shí)際上也是一個(gè)互為對(duì)偶的任務(wù)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

第一行是原始圖片的樣子,第二行則是結(jié)合 dual supervised learning 的方法來(lái)處理的結(jié)果;第三行則是不用對(duì)偶思想進(jìn)行處理的結(jié)果。我們可以看出,第二行的結(jié)果比第三行的要好不少。從第一列及第五列可以看出,沒有用對(duì)偶學(xué)習(xí)的話,不僅生成的圖片比較模糊,臉也變形了。

從無(wú)標(biāo)注數(shù)據(jù)進(jìn)行對(duì)偶學(xué)習(xí)的基本思想是要能獲得反饋、形成閉環(huán)(Closed loop 的反饋)。這種思想不僅僅是局限在互為對(duì)偶的兩個(gè)任務(wù),可以擴(kuò)展到更多的任務(wù)上,比如翻譯,我們可以在英文、中文、日文間進(jìn)行轉(zhuǎn)換,形成閉環(huán),從無(wú)標(biāo)注的數(shù)據(jù)進(jìn)行學(xué)習(xí);又比如語(yǔ)音、圖像和文本三者的轉(zhuǎn)換也可以形成閉環(huán),進(jìn)行對(duì)偶學(xué)習(xí)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

目前為止,我們介紹了如何利用結(jié)構(gòu)對(duì)稱之美從無(wú)標(biāo)注的數(shù)據(jù)進(jìn)行對(duì)偶學(xué)習(xí)。需要指出的是,對(duì)稱之美的價(jià)值不局限于此。我們來(lái)看看下面這個(gè)概率公式,我們可以想象其中 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是中文,微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是英文,或 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是圖片,微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是句子,聯(lián)合概率微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)可用不同的分解方式來(lái)實(shí)現(xiàn),比如用 primal 的分解方式,即微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),同樣地,對(duì)偶分解方式可以寫成微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

利用這樣一個(gè)互為對(duì)稱的 AI 任務(wù)的概率關(guān)系,我們可以:

  • 把它做為結(jié)構(gòu)化的正則項(xiàng),以加強(qiáng)監(jiān)督學(xué)習(xí)。

  • 或者提高我們的推理預(yù)測(cè)(improve inference)能力。

對(duì)偶學(xué)習(xí)如何增強(qiáng)監(jiān)督學(xué)習(xí)?

下面我們首先來(lái)看看對(duì)稱之美如何加強(qiáng)監(jiān)督學(xué)習(xí)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

機(jī)器翻譯

我們還是以翻譯為例,如果是有標(biāo)注的數(shù)據(jù),那么監(jiān)督學(xué)習(xí)的訓(xùn)練過程相對(duì)簡(jiǎn)單。我們知道 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 正確的翻譯,因此,我們就希望更新模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),使 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 出現(xiàn)的概率越大越好,也就是最大似然準(zhǔn)則。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

同樣地,對(duì)偶訓(xùn)練的過程也是迭代更新對(duì)偶模型微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)使 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),使條件概率微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)最大化。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,兩個(gè)任務(wù)的訓(xùn)練過程其實(shí)是分開的。我們知道,聯(lián)合概率 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)不論是用原模型微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)計(jì)算還是用對(duì)偶模型微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)計(jì)算,得到的值應(yīng)該是一樣的。但是如果是分開訓(xùn)練微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的話,不一定能保證聯(lián)合概率相同。

為了解決這一問題,我們加入了「正則化」項(xiàng),也就是微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),將兩個(gè)概率值的 gap 最小化。從而,我們實(shí)現(xiàn)了通過結(jié)構(gòu)的對(duì)稱性加強(qiáng)監(jiān)督學(xué)習(xí)的過程,將兩個(gè)互為對(duì)稱的兩個(gè)任務(wù)一起進(jìn)行學(xué)習(xí),我們把這個(gè)考慮的結(jié)構(gòu)對(duì)稱性的監(jiān)督學(xué)習(xí)叫做對(duì)偶監(jiān)督學(xué)習(xí)。對(duì)偶監(jiān)督學(xué)習(xí)實(shí)際上要優(yōu)化三個(gè)損失函數(shù):最大化對(duì)數(shù)似然微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),最大化對(duì)數(shù)似然微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),以及微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。第三項(xiàng)就是正則化像,即要求聯(lián)合概率越接近越好。這與 SVM 的正則化像的區(qū)別在于,后者與模型有關(guān),和數(shù)據(jù)無(wú)關(guān),但對(duì)偶監(jiān)督學(xué)習(xí)中討論的正則化像還與數(shù)據(jù)相關(guān)。

基于對(duì)偶監(jiān)督學(xué)習(xí)的方法,我們做了機(jī)器翻譯的任務(wù),包括英法、英中等翻譯,我們的方法(Dual-SL)相比標(biāo)準(zhǔn)的神經(jīng)機(jī)器翻譯(NMT)效果還是要好不少,用BLEU來(lái)評(píng)價(jià)得分提高了 1-2 分。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

圖像分類與生成

我們還將同樣的思想應(yīng)用到圖像分類與圖像生成上。這兩個(gè)過程同樣互為對(duì)稱,但與機(jī)器翻譯的主要不同點(diǎn)在于,這個(gè)過程存在著信息損失。比如將一張圖分成一個(gè)類別,但一個(gè)類別如「貓」是一個(gè)很抽象的概念,可能對(duì)應(yīng)很多不同貓的圖片,也就是說(shuō)從 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 至 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 有信息損失。有人擔(dān)心是否因?yàn)樾畔p失的問題,對(duì)偶學(xué)習(xí)就不管用了,實(shí)際上不然。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

我們?cè)?CIFAR 上采用了 32 層的深度殘差網(wǎng)絡(luò) ResNet 和 110 層的深度殘差網(wǎng)絡(luò)進(jìn)行測(cè)試。單獨(dú)訓(xùn)練圖像分類時(shí),32層的錯(cuò)誤率是 7.51;110 層的則是 6.43;而如果結(jié)合了對(duì)偶監(jiān)督學(xué)習(xí),錯(cuò)誤率可以分別減少到 6.82 及 5.40。這個(gè)提高實(shí)際上非常顯著,從 32 層到 110 層的效果提升也就是 1 個(gè)點(diǎn)左右,我們?cè)?110 層的基礎(chǔ)上加上對(duì)偶學(xué)習(xí)后,我們可以進(jìn)一步將錯(cuò)誤率降低一個(gè)點(diǎn)。目前這項(xiàng)工作已經(jīng)被 ICML 2017 接受。

對(duì)偶學(xué)習(xí)如何增強(qiáng)推斷?

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

就像我們前面講的,不論是有標(biāo)注的數(shù)據(jù),還是無(wú)標(biāo)注的數(shù)據(jù),都是通過一種結(jié)構(gòu)的對(duì)偶屬性提高我們訓(xùn)練的過程,改進(jìn)我們的模型,使我們的訓(xùn)練做得更好。除此之外,其實(shí)利用結(jié)構(gòu)的對(duì)稱之美還能提升我們推斷及預(yù)測(cè)的過程。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

同樣以機(jī)器翻譯為例,如果我有了一個(gè)模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)(英翻中的模型)和模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)(中翻英的模型)。如果有一個(gè)英文的句子 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),我們通過解碼把能最大化 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的中文句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)作為微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的翻譯;同理,給定一個(gè)中文的句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),我們把能最大化條件概率微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的英文句子微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)作為微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)的翻譯。這就是機(jī)器學(xué)習(xí)中標(biāo)準(zhǔn)預(yù)測(cè)推斷的做法。

前面我們講到,聯(lián)合概率微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)有兩種計(jì)算方式,那么 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 條件概率模型可以用正向模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)來(lái)計(jì)算,也可以通過反向模型 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 來(lái)計(jì)算,即微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。

因此我們提出了一個(gè)新的概念,叫對(duì)偶推斷或?qū)ε碱A(yù)測(cè)「dual inference」,在預(yù)測(cè)/推斷過程中同時(shí)采用微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)兩個(gè)模型。原本機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)的預(yù)測(cè)過程是:我要從 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 預(yù)測(cè)出 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),直接用 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 就可以了,但現(xiàn)在不同,我預(yù)測(cè) 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 時(shí),我希望生成 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 能使兩項(xiàng)最大化:微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)。

需要指出的是,對(duì)偶推斷/預(yù)測(cè)不影響  和  的訓(xùn)練過程,這兩個(gè)模型還可以按照原來(lái)的訓(xùn)練過程進(jìn)行,我們只是改進(jìn)了預(yù)測(cè)的過程。

我們?cè)跈C(jī)器翻譯、文本情感分類、圖像分類上做了實(shí)驗(yàn),結(jié)果如下面三張圖所示,相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)中的推斷/預(yù)測(cè)方式,對(duì)偶推斷對(duì)這些任務(wù)的準(zhǔn)確度都有明顯的提升(錯(cuò)誤率明顯降低)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)偶推斷/預(yù)測(cè)這個(gè)工作也剛剛發(fā)表在國(guó)際人工智能大會(huì)上(IJCAI 2017)上,感興趣的讀者可以閱讀我們的論文。

相關(guān)工作

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)偶學(xué)習(xí)的思想與很多工作都有關(guān)系。

Auto Encoder

對(duì)深度學(xué)習(xí)比較了解的同學(xué)可能知道一個(gè)概念叫「auto encoder」(自編碼器),主要是為了學(xué)習(xí)數(shù)據(jù)的隱藏表達(dá)(hidden representation)。比如輸入一張圖像,我們希望將它映射到一個(gè)特征空間,在無(wú)監(jiān)督學(xué)習(xí)中,通過特征表達(dá)的解碼過程將圖像反向生成。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

如果用對(duì)偶學(xué)習(xí)來(lái)表示這一過程,encoder 相當(dāng)于原模型;而 decoder 就相當(dāng)于對(duì)偶模型;目的是希望生成的新數(shù)據(jù) 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)  與原始數(shù)據(jù) 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 越接近越好。

從這個(gè)角度來(lái)看,auto encoder 的思想與無(wú)監(jiān)督對(duì)偶學(xué)習(xí)的概念很類似。

GANs

另一個(gè)很火的網(wǎng)絡(luò)是 GANs,基本思想是輸入一個(gè)噪聲向量,我們希望生成器所生成的圖片與真實(shí)圖像越接近越好,使判別器無(wú)法區(qū)分。這種關(guān)系就像造假者與警察的關(guān)系:造假者希望能制造出盡可能以假亂真的東西,而警察希望盡可能將贗品和正品區(qū)分開來(lái)。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

GANs 目前也是深度學(xué)習(xí)非?;鸬难芯糠较颉H绻脤?duì)偶學(xué)習(xí)的圖例來(lái)看,生成器就像是原模型,把隨機(jī)噪聲向量微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)映射到一個(gè)圖片微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié);而判別器就相當(dāng)于對(duì)偶模型,通過直接給 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 打分的方式,給予它的真實(shí)程度反饋。

對(duì)偶學(xué)習(xí):一種新的學(xué)習(xí)范式

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

對(duì)偶學(xué)習(xí)可以應(yīng)用于很多方面,如無(wú)監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí),但它的思想與傳統(tǒng)思路有些不同。

與無(wú)監(jiān)督/半監(jiān)督學(xué)習(xí)對(duì)比:

首先在無(wú)監(jiān)督學(xué)習(xí)里,無(wú)標(biāo)注數(shù)據(jù)并沒有反饋;半監(jiān)督學(xué)習(xí)里會(huì)生成一些偽標(biāo)簽,但質(zhì)量不能控制。這與對(duì)偶學(xué)習(xí)非常不同,我們會(huì)對(duì)無(wú)標(biāo)注數(shù)據(jù)生成一個(gè)偽標(biāo)簽,進(jìn)而通過對(duì)偶模型對(duì)這些偽標(biāo)簽給出質(zhì)量反饋,因此我們能更有效地利用無(wú)標(biāo)注數(shù)據(jù),使得結(jié)果比以往的半監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)要好。

與 co-training 對(duì)比:

其次,有人會(huì)認(rèn)為這種方法與 co-training 很相似,但實(shí)際上 co-training 只是半監(jiān)督學(xué)習(xí)的一種特殊方法,做了一些很強(qiáng)的假設(shè),如數(shù)據(jù)的特征集由兩個(gè)不相交的子集且每個(gè)子集的特征也足夠強(qiáng),且co-training只是針對(duì)一個(gè)任務(wù)進(jìn)行學(xué)習(xí)。而對(duì)偶學(xué)習(xí)至少需要兩個(gè)互為對(duì)稱的任務(wù),且對(duì)數(shù)據(jù)的特征沒有假設(shè)。

與多任務(wù)學(xué)習(xí)對(duì)比:

對(duì)偶學(xué)習(xí)與多任務(wù)學(xué)習(xí)也有些不同。如多任務(wù)學(xué)習(xí)在郵件識(shí)別微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)中,垃圾郵件識(shí)別(微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié))與緊急郵件篩選(微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)),共享底層的表達(dá) 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié),但上層的 微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié) 是不同的。而對(duì)偶學(xué)習(xí)并不共享底層表達(dá)。

與遷移學(xué)習(xí)對(duì)比:

此外,對(duì)偶學(xué)習(xí)與遷移學(xué)習(xí)也有不一樣的地方。遷移學(xué)習(xí)有一個(gè)主要任務(wù),采用其它的任務(wù)輔助它。對(duì)偶學(xué)習(xí)的兩個(gè)任務(wù)是共同提高的,不分主次。

因此,我們認(rèn)為對(duì)偶學(xué)習(xí)是一種新的學(xué)習(xí)范式。

總結(jié)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

  • 對(duì)偶學(xué)習(xí)非常通用

    能夠覆蓋目前 AI 的許多應(yīng)用,包括文本理解、圖像理解,語(yǔ)音識(shí)別等。

    也能涵蓋于 auto-encoder,GANs 等工作。

  • 對(duì)偶學(xué)習(xí)可以應(yīng)用于不同學(xué)習(xí)環(huán)境

    監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)都不在話下。

    不僅能提升訓(xùn)練效果,也能提升推斷過程。

  • 對(duì)偶學(xué)習(xí)在技術(shù)上的貢獻(xiàn)

    對(duì)偶學(xué)習(xí)利用了結(jié)構(gòu)的對(duì)稱性/相關(guān)性提升學(xué)習(xí),利用人類的先驗(yàn)知識(shí)提升深度學(xué)習(xí)的系統(tǒng);

    對(duì)偶學(xué)習(xí)另一個(gè)很有意義的地方在于提供了一種從無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)的行之有效的方法。有很多人認(rèn)為深度學(xué)習(xí)五到十年的主要突破方向在于如何從無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),而對(duì)偶學(xué)習(xí)通過一個(gè)閉環(huán)的反饋系統(tǒng),使我們能從無(wú)標(biāo)注數(shù)據(jù)中進(jìn)行學(xué)習(xí)。

    另外,強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域中表現(xiàn)更好,因?yàn)橛螒蚩梢酝ㄟ^規(guī)則制定明確的反饋機(jī)制,但像機(jī)器翻譯、無(wú)人駕駛這樣的物理世界的任務(wù),實(shí)際上很難獲得反饋。通過對(duì)偶學(xué)習(xí),我們可以獲得反饋信號(hào),讓強(qiáng)化學(xué)習(xí)在實(shí)際問題中進(jìn)行應(yīng)用。

對(duì)偶學(xué)習(xí)的工作有非常多的研究者共同參與,包括微軟亞洲研究院的同事及實(shí)習(xí)生們。歡迎大家與我們交流討論合作,一同推進(jìn)對(duì)偶學(xué)習(xí)的研究。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

最后打一個(gè)廣告。人工智能深度學(xué)習(xí)目前是非?;鸬难芯款I(lǐng)域,也面臨著非常多的挑戰(zhàn),我們希望能有更多的朋友能加入這個(gè)方向的研究,共同推進(jìn)人工智能的發(fā)展,創(chuàng)造未來(lái)。感興趣的朋友特別是即將畢業(yè)的同學(xué)或者已經(jīng)從事這方面工作的同學(xué)可以把簡(jiǎn)歷發(fā)到這個(gè)郵箱 ml-recruit@microsoft.com。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

謝謝大家。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

Q&A

1. 之前在知乎上看過秦老師關(guān)于對(duì)偶學(xué)習(xí)的回答,里面提到在解決大數(shù)據(jù)問題時(shí),微軟會(huì)將對(duì)偶學(xué)習(xí)應(yīng)用到更多的領(lǐng)域中去,比如圖像分類和生成。但圖像的分類和生成,與機(jī)器互譯的流程并不完全相同(即并不完全對(duì)稱),您是如何理解這個(gè)問題的?

的確,過程看起來(lái)是對(duì)稱的,實(shí)際上兩者的信息保留度上相差很多。我們可以近似的認(rèn)為,機(jī)器翻譯從中文到英文是沒有信息損失的,反之亦然。但像圖像分類與圖像生成存在信息損失,因此我們近期的工作「對(duì)偶監(jiān)督學(xué)習(xí)」就希望將它應(yīng)用于圖像分類與圖像生成中,這個(gè)工作可以參考我們ICML2017的論文。目前我們也正在研究如何利用對(duì)偶學(xué)習(xí)的思想針對(duì)圖像分類和生成進(jìn)行無(wú)標(biāo)注學(xué)習(xí)?,F(xiàn)在有一些初步的想法,但還沒有一個(gè)成熟的結(jié)果。我們當(dāng)前的結(jié)果表明,如果沒有信息損失,那么可以采用對(duì)偶無(wú)監(jiān)督學(xué)習(xí)。而不論是否有信息損失,都可以采用對(duì)偶監(jiān)督學(xué)習(xí)。

2. 對(duì)偶學(xué)習(xí)還有哪些可能的應(yīng)用和方向?是否能談?wù)勓芯吭鹤罱龅囊恍┻M(jìn)展?

我在前面的 PPT 也列舉了一些應(yīng)用,比如研究院的同事正在研究的方向,包括問題的生成與回答、語(yǔ)音合成與語(yǔ)音識(shí)別等。實(shí)際上,對(duì)偶學(xué)習(xí)的適用范圍很廣,研究和應(yīng)用空間很大,感興趣的朋友們可以和我們郵件聯(lián)系。

3. 在人工智能的學(xué)習(xí)過程中,如何看待大數(shù)據(jù)及小數(shù)據(jù)各自所起的作用?

簡(jiǎn)單講來(lái),如果我們有大量標(biāo)注數(shù)據(jù)的話,自然我們會(huì)想辦法充分利用,但如果沒有大數(shù)據(jù)的話,小樣本學(xué)習(xí)的重要一點(diǎn)在于如何利用 domain knowledge 或先驗(yàn)知識(shí)進(jìn)行學(xué)習(xí)。包括對(duì)偶學(xué)習(xí)在某種程度上,需要利用兩個(gè)任務(wù)的對(duì)稱性,實(shí)際上這也是人類的一種先驗(yàn)知識(shí),以加強(qiáng)學(xué)習(xí)。

4. 如何評(píng)價(jià)最近挺火的DiscoGAN/DualGAN跟對(duì)偶機(jī)器翻譯之間的異同?

DualGAN 和對(duì)偶學(xué)習(xí)的思想非常類似,但他們的成果算是一個(gè)加強(qiáng)版,學(xué)習(xí)過程的反饋包括兩部分,一個(gè)是重構(gòu)誤差,另一部分是判別器判斷真假的反饋。

5. DualGAN連一小部分有監(jiān)督數(shù)據(jù)都不需要,對(duì)偶機(jī)器翻譯有可能也做到嗎?

我們做了一些簡(jiǎn)單嘗試,初步發(fā)現(xiàn),如果完全不用標(biāo)注數(shù)據(jù),對(duì)偶機(jī)器翻譯收斂會(huì)變得很慢,在資源比較有限的情況下,很難在幾個(gè)月里達(dá)到一個(gè)好的結(jié)果。

我們組現(xiàn)在也在研究一個(gè)課題,即完全沒有標(biāo)注數(shù)據(jù),是否能只通過一本英漢詞典(先驗(yàn)知識(shí))結(jié)合對(duì)偶學(xué)習(xí)思想進(jìn)行學(xué)習(xí)。

6. actor critic是否也算有duel learning思想?對(duì)偶學(xué)習(xí)收斂性如何優(yōu)化?

actor critic 有點(diǎn)像對(duì)偶模型,actor 負(fù)責(zé) take action,而 critic 負(fù)責(zé)給這個(gè) action 的好壞進(jìn)行反饋,這樣兩者可以一起優(yōu)化。但是 actor critic 不是利用了結(jié)構(gòu)對(duì)稱性,而是為了優(yōu)化 actor 而構(gòu)建一個(gè) critic,因此我覺得 GANs 與它更相似。

優(yōu)化也是我們現(xiàn)在對(duì)偶學(xué)習(xí)遇到的主要問題之一,也是深度學(xué)習(xí)算法普遍會(huì)遇到的一個(gè)問題。這是一個(gè)很復(fù)雜的過程,目前我們有一些經(jīng)驗(yàn),但通用性不強(qiáng),因此也處于一個(gè)摸索過程。如果朋友們有什么想法,也歡迎一同討論。

今天的直播就到這里結(jié)束。如果大家想看課程總結(jié)文章,可以關(guān)注雷鋒網(wǎng)的公眾號(hào),里面有很多很好的內(nèi)容,建議大家平時(shí)可以多關(guān)注。如果想看具體課程,可以回復(fù)「167」進(jìn)入行業(yè)微信群討論,也歡迎大家和我們交流,謝謝大家。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

微軟亞洲研究院秦濤:對(duì)偶學(xué)習(xí)的對(duì)稱之美 | 雷鋒網(wǎng)公開課總結(jié)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)