0
本文作者: 孔令雙 | 2018-11-28 19:15 |
機(jī)器學(xué)習(xí)、人工智能領(lǐng)域的研究人員,以及任何學(xué)術(shù)研究人員,都關(guān)心這兩件事:分享、傳播自己的研究成果讓更多人知道,以及了解自己研究方向的最新進(jìn)展、結(jié)識(shí)更多的研究人員。雷鋒網(wǎng) AI 研習(xí)社大講堂就是一個(gè)供研究人員們分享自己成果、促進(jìn)廣泛溝通互動(dòng)的直播平臺(tái)。
自 AI 大講堂去年 7 月上線以來, 已經(jīng)有來自清華大學(xué)、北京大學(xué)、上海交通大學(xué)、香港科技大學(xué)、 MIT、UC Berkeley、悉尼科技大學(xué)等知名國內(nèi)外高校的嘉賓進(jìn)行直播分享,甚至還舉辦了線下論文分享會(huì),迄今已完成了 100 期,覆蓋影響讀者過萬人。不僅嘉賓自己的研究成果被直播觀眾以及讀者們了解,也讓科技愛好者們、學(xué)生們、其它研究人員們?cè)鲞M(jìn)了對(duì)人工智能相關(guān)思維、知識(shí)、應(yīng)用的認(rèn)識(shí),為國內(nèi)人工智能長期持續(xù)發(fā)展的氛圍出一份力。
下面我們匯總了大講堂精彩的 NLP 方向分享回顧。
第 12 期,word2vec技術(shù)在文本分析中的應(yīng)用
word2vec是通過文本的語序和語境無監(jiān)督訓(xùn)練出來能將詞的語義表征到向量空間中的模型。自從Mikolov et al.在2013年提出之后,在文本分析中有著廣泛的應(yīng)用。在這次分享中,我將講解word2vec模型的基本原理,它的一些變形,以及在一些數(shù)據(jù)挖掘任務(wù)中的應(yīng)用。
語音分離的三個(gè)方面:語音增強(qiáng)(語音和非語音分離),多說話人分離和語音解混響;
語音分離的四個(gè)部分:模型,訓(xùn)練目標(biāo),訓(xùn)練數(shù)據(jù)和單通道分離算法。
第 20 期,生成式對(duì)抗網(wǎng)絡(luò)在文本生成的探索:基礎(chǔ)、前沿以及我們?nèi)碌慕Y(jié)果
生成式對(duì)抗網(wǎng)絡(luò)(GANs)目前已經(jīng)得到了廣泛研究者的關(guān)注并且在很多實(shí)際場(chǎng)景中得到應(yīng)用。但是大多數(shù)研究工作仍然集中在例如圖片和語音的連續(xù)稠密數(shù)據(jù)上,而對(duì)例如文本這樣的序列離散數(shù)據(jù)的生成研究得較少。原因是對(duì)這類離散數(shù)據(jù)無法直接求導(dǎo),導(dǎo)致原版的GAN模型無法工作。我們課題組在2017年AAAI提出SeqGAN框架來成功繞過這個(gè)問題,通過將文本生成器建模成一個(gè)強(qiáng)化學(xué)習(xí)策略并用REINFORCE梯度優(yōu)化來學(xué)習(xí)這個(gè)生成器,SeqGAN達(dá)到了文本生成效果的提升。基于SeqGAN,我們課題組進(jìn)一步研究了對(duì)抗過程中的信息泄露設(shè)置,發(fā)現(xiàn)判別器泄露的信息其實(shí)能很好地幫助生成器快速學(xué)習(xí)并最終達(dá)到更好的文本生成效果,這個(gè)新框架我們命名為LeakGAN。
第 22 期,基于LSTM-RNN的語音聲學(xué)建模技術(shù)
LSTM-RNN可以對(duì)長時(shí)序列信息進(jìn)行建模,廣泛應(yīng)用于語音識(shí)別聲學(xué)模型建模中。此次主要介紹近期LSTM的一些研究進(jìn)展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM采用了雙向LSTM結(jié)構(gòu),并在訓(xùn)練和解碼時(shí)加入了數(shù)幀的未來信息來控制延時(shí),解決了普通雙向LSTM無法用于實(shí)時(shí)語音識(shí)別的問題;而2D-LSTM在時(shí)間和頻域兩個(gè)維度上進(jìn)行循環(huán),同時(shí)保存時(shí)間軸與頻域軸的序列信息,Google和微軟都在大規(guī)模語音識(shí)別任務(wù)上驗(yàn)證了這類2D-LSTM結(jié)構(gòu)的有效性。
第 25 期,基于深度學(xué)習(xí)的中文唇語識(shí)別
唇語識(shí)別,即通過運(yùn)動(dòng)的嘴唇,識(shí)別其說話內(nèi)容。通過LSTM模型將CNN抽取出來的圖片特征進(jìn)行時(shí)序建模,最后引入Seq2Seq的翻譯模型將發(fā)音轉(zhuǎn)換成漢字。此次分享,會(huì)先簡(jiǎn)單介紹現(xiàn)有的英文唇語識(shí)別的一些工作(《Lip Reading Sentences in the Wild》 和《LipNet: sentence level lipreading》),隨后對(duì)中文唇語識(shí)別展開詳細(xì)討論。
第 27 期,面向?qū)ο蟮纳窠?jīng)規(guī)劃用于文檔理解
深度好奇提出了用于垂直領(lǐng)域文檔理解的OONP框架,它使用離散的對(duì)象本體圖結(jié)構(gòu)作為中間狀態(tài),該狀態(tài)被OONP創(chuàng)建、更新直至最終輸出。這個(gè)解析過程被OONP轉(zhuǎn)化成為按照文本閱讀順序的離散動(dòng)作的決策序列,模仿了人理解文本的認(rèn)知程。OONP框架提供了神經(jīng)符號(hào)主義的一個(gè)實(shí)例:在OONP框架內(nèi),連續(xù)信號(hào)、表示、操作和離散信號(hào)、表示、操作緊密結(jié)合,形成信息閉環(huán)。這使得OONP可以靈活地將各種先驗(yàn)知識(shí)用不同形式加入到行間記憶和策略網(wǎng)絡(luò)中。為了優(yōu)化OONP,深度好奇利用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)以及二者的各種混合態(tài),以適應(yīng)不同強(qiáng)度和形式的監(jiān)督信號(hào)以訓(xùn)練參數(shù)。
第 32 期,深度學(xué)習(xí)在語音增強(qiáng)方向上的前沿研究
現(xiàn)實(shí)生活中干擾噪聲的存在嚴(yán)重影響到助聽器、人工耳蝸等聽力設(shè)備佩戴者的語音可懂度。同時(shí)在智能語音交互設(shè)備中,這些干擾噪聲的存在也嚴(yán)重影響了語音識(shí)別的正確率,隨著智能音箱等設(shè)備的大熱,語音前端信號(hào)處理越來越被重視起來。本次分享主要對(duì)單(多)通道的傳統(tǒng)語音增強(qiáng)算法做個(gè)簡(jiǎn)單的匯總,然后重點(diǎn)講解一下目前學(xué)術(shù)上比較前沿的基于深度學(xué)習(xí)的語音增強(qiáng)與分離算法。
第 36 期,強(qiáng)化學(xué)習(xí)在自然語言處理經(jīng)典問題上的初探
隨著強(qiáng)化學(xué)習(xí)在機(jī)器人和游戲AI等領(lǐng)域的成功,該方法也引起了越來越多的關(guān)注。本次分享將介紹我們利用強(qiáng)化學(xué)習(xí)技術(shù),更好地解決自然語言處理中的兩個(gè)經(jīng)典任務(wù):關(guān)系抽取和文本分類。在關(guān)系抽取任務(wù)中,我們嘗試?yán)脧?qiáng)化學(xué)習(xí),解決遠(yuǎn)程監(jiān)督方法自動(dòng)生成的訓(xùn)練數(shù)據(jù)中的噪音問題。在文本分類任務(wù)中,我們利用強(qiáng)化學(xué)習(xí)得到更好的句子的結(jié)構(gòu)化表示,并利用該表示得到了更好的文本分類效果。這兩個(gè)工作均發(fā)表于AAAI 2018。
第 47 期,推敲網(wǎng)絡(luò):用于序列生成的網(wǎng)絡(luò)結(jié)構(gòu)
基于編碼器-解碼器結(jié)構(gòu)的序列生成模型被廣泛應(yīng)用文本任務(wù),例如神經(jīng)機(jī)器翻譯,摘要生成,對(duì)話系統(tǒng)等等。然而,現(xiàn)有模型在生成序列的時(shí)候都是只生成一次,而沒有反復(fù)“推敲”的過程。而推敲在我們進(jìn)行翻譯、寫文章的時(shí)候是一個(gè)很普遍的做法。因此我們將“推敲”引入序列生成模型中,提出了推敲網(wǎng)絡(luò),來改進(jìn)序列生成質(zhì)量。本次公開課中,夏應(yīng)策同學(xué)將主要分享推敲網(wǎng)絡(luò)算法及其應(yīng)用。
第 49 期,AAAI’18 Chatbot技術(shù)預(yù)講-眾包NER&融合時(shí)間的標(biāo)簽推薦
近年來,聊天機(jī)器人(chatbot)作為AI技術(shù)的殺手級(jí)應(yīng)用,發(fā)展得如火如荼,各種智能硬件層出不窮。而虛擬生命作為chatbot的下一代范式,更面臨著許多技術(shù)挑戰(zhàn)。本次演講將詳細(xì)闡述即將公開在AAAI’18的兩篇論文。兩篇論文分別研究了命名實(shí)體識(shí)別(NER)和推薦系統(tǒng)。前者是自然語言理解(NLU)的基礎(chǔ)功能,而后者可以在產(chǎn)品上體現(xiàn)“生命感”和認(rèn)知功能。由于NLU技術(shù)目前在人工智能領(lǐng)域也僅僅處于起步階段,因此,在NER方面的研究,體現(xiàn)了如何利用眾包技術(shù)進(jìn)一步提升數(shù)據(jù)的質(zhì)量和算法的性能,從而增強(qiáng)虛擬生命的感知功能。而推薦系統(tǒng),則以場(chǎng)景化出發(fā),可以通過對(duì)多源異構(gòu)的知識(shí)圖譜進(jìn)行融合,實(shí)現(xiàn)準(zhǔn)確的推薦,讓用戶真實(shí)感受到“情感陪伴和關(guān)懷”,從而使得虛擬生命產(chǎn)品,從傳統(tǒng)聊天機(jī)器人的“被動(dòng)交互”,進(jìn)化到根據(jù)用戶興趣和喜好進(jìn)行“主動(dòng)交互”。
第 51 期,讓人工智能像人類一樣學(xué)習(xí)自然語言:無監(jiān)督學(xué)習(xí)和情景化學(xué)習(xí)的最新進(jìn)展
近幾年,深度神經(jīng)網(wǎng)絡(luò)在自然語言學(xué)習(xí)任務(wù)上取得眾多突破,但是仍然依賴于大規(guī)模靜態(tài)標(biāo)注數(shù)據(jù)。與此相反,人類學(xué)習(xí)語言的時(shí)候:
1)不需要大規(guī)模監(jiān)督信號(hào);
2)可通過與環(huán)境的交互理解語言。
基于讓人工智能像人類一樣學(xué)習(xí)語言的目標(biāo),本次分享將介紹無監(jiān)督學(xué)習(xí)和情景化學(xué)習(xí)(language grounding)的一些最新進(jìn)展,其中包括一篇ICLR Oral論文(錄取率2%)的解讀。
在如今大數(shù)據(jù)背景下,人們輕而易舉的可以獲得海量的文本數(shù)據(jù),如何有效的分析這些文本數(shù)據(jù),同時(shí)提取有效的特征用于后續(xù)的文本分類,文本檢索以及推薦系統(tǒng)等應(yīng)用中,成為一個(gè)重要的研究課題。雖然一些基于概率生成網(wǎng)絡(luò)的主題模型被提出,比如 LDA ,深度 LDA 等,但是它們?cè)跍y(cè)試階段仍然需要耗費(fèi)大量的時(shí)間去推理參數(shù)的后驗(yàn),使得這些模型在實(shí)際應(yīng)用的時(shí)效性上大打折扣。因此,本次公開課,張昊博士將結(jié)合他們團(tuán)隊(duì) ICLR 2018 文章,WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling,分享他在解決這個(gè)問題過程中的建模,算法實(shí)現(xiàn)以及實(shí)踐經(jīng)驗(yàn)。
話生成是近年自然語言處理領(lǐng)域的熱門方向之一,如何控制回復(fù)的屬性(如情緒、風(fēng)格等)以提升回復(fù)質(zhì)量和交互體驗(yàn)成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的話題。在本次分享中,講者將分享對(duì)話生成可控性的最新工作。
第 66 期,如何利用提問增強(qiáng)開放領(lǐng)域?qū)υ捪到y(tǒng)互動(dòng)性
現(xiàn)如今,諸如小冰這類閑聊機(jī)器人逐漸進(jìn)入了大眾的視野,甚至成為了一部分人打發(fā)閑暇時(shí)光的伴侶。然而,現(xiàn)在的閑聊機(jī)器人在對(duì)話的互動(dòng)性、一致性以及邏輯性上都還存在著一些亟待解決的缺陷。本次與大家分享的一篇收錄于ACL2018的論文,將嘗試著利用提問來解決閑聊機(jī)器人互動(dòng)性不足的問題。
第 69 期,“九歌”——基于深度學(xué)習(xí)的中國古典詩歌自動(dòng)生成系統(tǒng)
近年來人工智能與文學(xué)藝術(shù)的結(jié)合日趨緊密,AI自動(dòng)繪畫、自動(dòng)作曲等方向都成為研究熱點(diǎn)。詩歌自動(dòng)生成是一項(xiàng)有趣且具有挑戰(zhàn)性的任務(wù)。在本次公開課中, 講者將介紹清華自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室的自動(dòng)作詩系統(tǒng),“九歌”,及其相關(guān)的技術(shù)方法和論文。
第 70 期,語義分析介紹及跨語言信息在語義分析中的應(yīng)用
word embedding是很常見的input feature,能夠很大程度地提升模型的性能。另一方面,關(guān)于output對(duì)模型性能的影響,關(guān)注度并不是很高。在本次分享中,將介紹一下關(guān)于output embedding對(duì)于semantic parsing的影響。
義原(Sememe)在語言學(xué)中是指最小的不可再分的語義單位,而知網(wǎng)(HowNet)則是最著名的義原知識(shí)庫。近些年包括知網(wǎng)在內(nèi)的語言知識(shí)庫在深度學(xué)習(xí)模型中的重要性越來越顯著,但是這些人工構(gòu)建的語言知識(shí)庫往往面臨新詞不斷出現(xiàn)的挑戰(zhàn)。知網(wǎng)也不例外,而且其只為中、英文詞標(biāo)注了義原,這限制了它在其他語言的NLP任務(wù)中的應(yīng)用。因此,我們希望采用機(jī)器學(xué)習(xí)的方法為中文新詞自動(dòng)推薦義原,并進(jìn)一步為其他語言的詞語推薦義原。
第 85 期,計(jì)算機(jī)輔助詞典編纂 ——以異體字詞典為例
大數(shù)據(jù)開啟了詞典編纂的新模式,語義計(jì)算使得自動(dòng)編輯成為可能。本次分享中,講者分享如何通過word2vec等工具來計(jì)算字義相似度從而識(shí)別異體字。
近些年來,端到端(End-to-End)語音識(shí)別得到了廣泛的關(guān)注和研究,成為語音識(shí)別領(lǐng)域新研究熱點(diǎn)。本次公開課中,講者將分享端到端語音識(shí)別框架提出的動(dòng)機(jī)和幾種主流方法的探討與對(duì)比。
近些年來,端到端(End-to-End)語音合成得到了廣泛的關(guān)注和研究,成為語音合成領(lǐng)域的新研究熱點(diǎn)。本次公開課中,講者將分享端到端語音合成框架提出的動(dòng)機(jī),并對(duì)幾種主流方法介紹和對(duì)比。
第 100 期,對(duì)抗學(xué)習(xí)在語音識(shí)別中的應(yīng)用
近年來,對(duì)抗學(xué)習(xí)被廣泛的應(yīng)用在了計(jì)算機(jī)視覺的各個(gè)研究領(lǐng)域中,成為一個(gè)非常流行的研究熱點(diǎn)。在語音相關(guān)的研究領(lǐng)域中,對(duì)抗學(xué)習(xí)也逐漸滲透到各個(gè)研究分支里,包括語音降噪與分離、語音合成、語音識(shí)別和說話人確認(rèn)等任務(wù)。在本次報(bào)告中,我主要介紹我們將對(duì)抗學(xué)習(xí)應(yīng)用在魯棒語音識(shí)別任務(wù)中的工作。同時(shí),也會(huì)簡(jiǎn)單介紹對(duì)抗樣本在增強(qiáng)模型魯棒性方面的工作。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。