0
本文作者: 楊文 | 2018-01-24 18:53 |
雷鋒網(wǎng)AI科技評(píng)論按:1 月 22 日,號(hào)稱業(yè)界「研值」最高的百度獎(jiǎng)學(xué)金 2017 年度頒獎(jiǎng)典禮在百度科技園隆重舉行。AI 科技評(píng)論作為合作媒體也受邀參加了頒獎(jiǎng)儀式,共同見證了 10 位「AI 界耀眼新星」的誕生。
百度獎(jiǎng)學(xué)金計(jì)劃是為了發(fā)掘、支持和鼓勵(lì)最優(yōu)秀的華人學(xué)生去解決人工智能學(xué)科領(lǐng)域當(dāng)中最有價(jià)值的技術(shù)問題,促進(jìn)中國(guó)人工智能的世界前沿站位,培養(yǎng)中國(guó)人工智能領(lǐng)域的未來儲(chǔ)備精英技術(shù)人才。因此本次的十位獲獎(jiǎng)選手無疑都來自 AI 領(lǐng)域,研究方向涵蓋了當(dāng)今最熱門的計(jì)算機(jī)視覺,自然語言處理,機(jī)器學(xué)習(xí),大數(shù)據(jù)挖掘等相關(guān)細(xì)分方向。以下是十位選手的簡(jiǎn)單介紹。
陳師哲,計(jì)算機(jī)視覺領(lǐng)域,主攻「多模態(tài)情感識(shí)別」和「視頻內(nèi)容自然語言描述」,在國(guó)際頂會(huì)期刊發(fā)表相關(guān)論文十余篇。
王奕森,機(jī)器學(xué)習(xí)/語音領(lǐng)域,主攻樹類機(jī)器學(xué)習(xí)模型,尤其是隨機(jī)森林模型相關(guān)的基礎(chǔ)理論和應(yīng)用。
張飚,自然語言處理領(lǐng)域,主攻機(jī)器翻譯中的長(zhǎng)時(shí)記憶模型,提出了創(chuàng)新型的新模型方案。
胡志挺,自然語言處理領(lǐng)域,主攻自然語言處理以及機(jī)器學(xué)習(xí)方向的基礎(chǔ)理論,尤其在知識(shí)和神經(jīng)網(wǎng)絡(luò)方法相結(jié)合的方向上有獨(dú)到的見解。
林衍凱,自然語言處理領(lǐng)域,主攻知識(shí)表示學(xué)習(xí),知識(shí)獲取,知識(shí)應(yīng)用方向,代表性的研究和成果有 TransR 和 PTransE,NRE 和 MNER 等。
王小龍,計(jì)算機(jī)視覺領(lǐng)域,碩士期間主要做 DPM 的檢測(cè)工作,博士從事預(yù)測(cè)學(xué)習(xí)(predictive learning)工作,發(fā)表的論文多次被國(guó)際頂會(huì)收錄,目前發(fā)表 17 篇論文,10 篇一作,570 個(gè)引用。
王云鶴,計(jì)算機(jī)視覺領(lǐng)域,主攻神經(jīng)網(wǎng)絡(luò)加速壓縮方面的研究。他提出了利用離散余弦變換來提升卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程的預(yù)測(cè)速度,該方法極具創(chuàng)新性和實(shí)用性。
李成濤,機(jī)器學(xué)習(xí)領(lǐng)域,主攻多樣性采樣方面的研究,他和導(dǎo)師共同研究使用馬爾科夫鏈進(jìn)行采樣,并且運(yùn)用數(shù)值計(jì)算的技術(shù)(Gauss Quadrature),極大地提升了采樣效率。
吳昊,數(shù)據(jù)挖掘領(lǐng)域,主攻利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)解決軌跡序列建模以及預(yù)測(cè)問題。其研究的方法在地圖大數(shù)據(jù)軌跡挖掘、地圖新路徑挖掘,以及基于大數(shù)據(jù)人流分析具有非常重要的意義。
朱鎔,數(shù)據(jù)挖掘領(lǐng)域,主攻多層圖的挖掘算法, 包括 Top-K 可靠搜索,SimRank 相似性,Top-K 稠密子圖挖掘等問題。目前發(fā)表一作的頂級(jí)期刊和會(huì)議文章五篇(TKDE/KAIS/ICDE/ICDM)。
雷鋒網(wǎng) AI 科技評(píng)論了解到,本次的初選評(píng)選標(biāo)準(zhǔn)主要參考選手們的學(xué)術(shù)成績(jī),包括在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊上的總發(fā)文數(shù),以及一作和非一作的的各自占比。以上這些選手能夠脫穎而出,除了學(xué)術(shù)成績(jī)不俗、答辯環(huán)節(jié)征服評(píng)委外,最最重要的還有他們研究成果的工程轉(zhuǎn)化能力。這一點(diǎn)在頒獎(jiǎng)現(xiàn)場(chǎng)也得到了百度技術(shù)委員會(huì)主席吳華的認(rèn)可?!赶啾韧鶎玫陌俣泉?jiǎng)學(xué)金獲獎(jiǎng)選手們,這屆百度獎(jiǎng)學(xué)金的選手更注重把研究與實(shí)際應(yīng)用場(chǎng)景相結(jié)合,并取得了優(yōu)秀的成績(jī)。我們希望,這些頂尖的人才能夠在未來繼續(xù)用他們的科研成果去推動(dòng)人工智能的進(jìn)步?!拱俣燃夹g(shù)委員會(huì)主席,同時(shí)擔(dān)任本次獎(jiǎng)學(xué)金評(píng)審組組長(zhǎng)的吳華女士在頒獎(jiǎng)現(xiàn)場(chǎng)如是說。
頒獎(jiǎng)典禮結(jié)束后,為了能使大家更直接地感受獲獎(jiǎng)選手的學(xué)術(shù)風(fēng)采。活動(dòng)方邀請(qǐng)了三位獲獎(jiǎng)?wù)吡盅軇P、李成濤、王云鶴進(jìn)行了簡(jiǎn)要的學(xué)術(shù)分享,同時(shí)也邀請(qǐng)了兩位往屆獲獎(jiǎng)?wù)呃罴o(jì)為、黃巖前來為「新秀們」助陣。他們五位學(xué)術(shù)青年共同為大家分享了目前對(duì)話系統(tǒng)、深度學(xué)習(xí)與知識(shí)圖譜等領(lǐng)域的最新研究成果。
第一位分享的嘉賓是斯坦福畢業(yè)生李紀(jì)為,分享主題是:教會(huì)機(jī)器談話。
大家好,很開心今天再次重新回到百度,我覺得非常開心!以前是做對(duì)話的,今天就為大家分享我一兩年前的工作。
教會(huì)機(jī)器像人類一樣交談,需要解決兩個(gè)問題。一個(gè)是如何讓機(jī)器產(chǎn)生比較有意思并且有信息的內(nèi)容。另一個(gè)是如何保持機(jī)器具有一致性,讓它說話不自相矛盾。
之前的這個(gè)模型,由于訓(xùn)練數(shù)據(jù)集里有很多無聊的回復(fù),結(jié)果就是模型每次都會(huì)產(chǎn)生這種無聊的對(duì)話,比如說「我不知道」,「呵呵」之類的。但是光禁止機(jī)器回答這類無聊的問題是不夠的,機(jī)器還會(huì)產(chǎn)生同類,同樣意思的其他語句變種,例如下面這張圖。
所以要解決這個(gè)問題首先要通過人對(duì)機(jī)器之前說的話,來猜到機(jī)器的回復(fù)是什么。機(jī)器通過人回復(fù)的話,來猜到人之前問的話是什么。
第二個(gè)問題如何讓機(jī)器對(duì)話保持一致性,大家的想法是讓每一個(gè)人用一個(gè)向量來代替,所以當(dāng)你問一個(gè)人一百個(gè)問題的時(shí)候,他會(huì)用同一個(gè)向量做抵扣。也就是說它會(huì)用同一個(gè)向量來去讓這一百個(gè)問題的回答產(chǎn)生一致。
第二位分享嘉賓是林衍凱,分享主題是:知識(shí)表示與知識(shí)提取。
我是做偏知識(shí)圖譜方向的,前兩年主要在做知識(shí)的表示還有它的抽取。知識(shí)圖譜,可能大家比較熟悉,就是把一些實(shí)體關(guān)系組成一個(gè)圖譜。今天主要介紹兩方面,第一方面是知識(shí)表示,第二方面是知識(shí)獲取。
知識(shí)表示其實(shí)就是將知識(shí)圖譜里面的實(shí)體對(duì)應(yīng)為一個(gè)空間中的向量,傳統(tǒng)的知識(shí)圖譜是以一種三元組形式去展現(xiàn)的,現(xiàn)有知識(shí)表示方法在模型復(fù)雜度較小的情況下,效果是非常好的。我們主要工作有兩點(diǎn),就是去解決現(xiàn)知識(shí)表示方法存在的一些問題。第一個(gè)它無法去對(duì)知識(shí)圖譜中的復(fù)雜關(guān)系進(jìn)行建模。第二個(gè),它無法針對(duì)知識(shí)圖譜內(nèi)部的關(guān)系路徑去做建模。
第二部分工作是關(guān)于知識(shí)抽取。我主要做的是文本關(guān)系抽取方面的工作。我們提出了多元的關(guān)系抽取系統(tǒng),無論是在中文數(shù)據(jù)下或者在英文數(shù)據(jù)下,它抽取效果都比原始的有了非常大的提高。
第三位分享嘉賓是黃巖,分享主題為:用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)處理超分辨率視頻。
我的研究方向是計(jì)算機(jī)視覺和深度學(xué)習(xí),下面我將簡(jiǎn)要介紹一下循環(huán)神經(jīng)網(wǎng)絡(luò)。相對(duì)于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò),循環(huán)的網(wǎng)絡(luò)更側(cè)重于處理序列化的數(shù)據(jù),最大的區(qū)別在于不同時(shí)刻隱含狀態(tài)之間的循環(huán)連接。需要注意的一點(diǎn)是,無論是傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò),還是循環(huán)網(wǎng)絡(luò),它們的所有輸入都是向量的形式,層與層之間都是全連接的操作。
再來介紹一下循環(huán)卷積網(wǎng)絡(luò),它其實(shí)是一個(gè)全卷積的循環(huán)網(wǎng)絡(luò)。以上圖為例,對(duì)于傳統(tǒng)的全連接深度神經(jīng)網(wǎng)絡(luò),把它進(jìn)行全卷積化,即把所有的全連接都替換成卷積操作,就得到我們經(jīng)常使用的卷積網(wǎng)絡(luò)。沿著時(shí)間方向展開,深度神經(jīng)網(wǎng)絡(luò)就變成一個(gè)循環(huán)網(wǎng)絡(luò)。而我所介紹的循環(huán)卷積網(wǎng)絡(luò)本質(zhì)上是一個(gè)全卷積的循環(huán)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)在參數(shù)量上有巨大優(yōu)勢(shì),傳統(tǒng)循環(huán)網(wǎng)絡(luò)的參數(shù)量大概是在百萬甚至千萬左右,循環(huán)卷積網(wǎng)絡(luò)基本上只有一兩萬左右,因此測(cè)試速度會(huì)得極大的提升。
應(yīng)用循環(huán)卷積網(wǎng)絡(luò)到視頻超分辨率上,可以在保持視覺內(nèi)容空間結(jié)構(gòu)信息的同時(shí)極大提升模型的測(cè)試速度,并且卷積操作使得我們可以處理任意尺度的視頻幀。
第四位分享嘉賓為李成濤,分享主題是 :關(guān)于多樣性采樣相關(guān)的理論、實(shí)踐及應(yīng)用。
我的研究主要是關(guān)于多樣性采樣方面的,具體來講就是在一個(gè)數(shù)據(jù)集中采樣出一些具有代表性的,沒有冗余信息的一些樣本來代表整個(gè)數(shù)據(jù)集,比如一本書的梗概,一段視頻的剪輯等等,簡(jiǎn)言之就是從大量信息中提取「干貨」。
通過多樣性采樣,我們可以極大地減少處理數(shù)據(jù)的時(shí)間,在很短的時(shí)間內(nèi)獲得較多的信息。我之前做過一些多樣性采樣的理論工作,主要是關(guān)于如何提升多樣性采樣的效率的。比如我們研究的一個(gè)比較典型的多樣性采樣的概率分布,Determinantal Point Process。它的采樣過程非常耗時(shí),我和導(dǎo)師研究后通過使用馬爾科夫鏈進(jìn)行采樣,在理論上證明了它的采樣效率要高于原本的方法,并且運(yùn)用數(shù)值計(jì)算的技術(shù)(Gauss Quadrature),極大地提升了采樣效率。
多樣性采樣還是有非常大的應(yīng)用前景的?,F(xiàn)在是一個(gè)信息爆炸時(shí)代,如何在更短的時(shí)間內(nèi)處理更多的信息一直是一個(gè)非常重要的課題。我覺得多樣性采樣在這里面會(huì)充當(dāng)非常重要的角色。很多我們可能不敢想象的事情,可能都會(huì)因?yàn)槎鄻有圆蓸觾鹤兂涩F(xiàn)實(shí),比如一小時(shí)看完一本書,一分鐘看完一部電影電影等等。
最后一位分享嘉賓是王云鶴,分享主題為:關(guān)于深度神經(jīng)網(wǎng)絡(luò)的壓縮方面的研究。
我在神經(jīng)網(wǎng)絡(luò)加速壓縮方面做了深入研究,提出利用離散余弦變換將卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程中的卷積計(jì)算從空間域轉(zhuǎn)換為頻率域,在準(zhǔn)確度只有輕微下降的前提下,預(yù)測(cè)速度大幅度提升、模型消耗的存儲(chǔ)大幅度降低。該方法極具創(chuàng)新性和實(shí)用性。
深度卷積神經(jīng)網(wǎng)絡(luò)壓縮這個(gè)課題非常具有應(yīng)用前景,因?yàn)樯疃葘W(xué)習(xí)模型在大多數(shù)任務(wù)(例如圖像識(shí)別、圖像超分辨率等)上的精度已經(jīng)達(dá)到了落地需求,但是它們的線上速度和內(nèi)存消耗還沒有達(dá)到落地需求。
然而,越來越多的實(shí)際應(yīng)用需要用到這些深度學(xué)習(xí)模型,例如手機(jī)、智能攝像頭、無人車等。所以如何設(shè)計(jì)更輕便、更高精度的深度神經(jīng)網(wǎng)絡(luò)仍舊是一個(gè)亟需解決的問題。
雷鋒網(wǎng)報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。