丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給李詩
發(fā)送

0

專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017

本文作者: 李詩 2017-07-09 10:29 專題:GAIR 2017
導(dǎo)語:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物,你不會(huì)讓機(jī)器人寫了稿子再印刷到報(bào)紙上去。

 

雷鋒網(wǎng)按:7月8日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)全程承辦的AI盛會(huì)「全球人工智能與機(jī)器人峰會(huì)」(CCF-GAIR)進(jìn)入火熱的第二天。各分會(huì)會(huì)場人頭不減,大家在細(xì)分領(lǐng)域深入探討交流的激情更盛。

專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017


 作為AI+專場的開場嘉賓,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍發(fā)表了主題為《機(jī)器寫稿技術(shù)與應(yīng)用》的演講。會(huì)后,不少媒體朋友上前與萬小軍交流,期望能將“機(jī)器寫稿技術(shù)”引入自家媒體。

 機(jī)器人寫稿并不是一個(gè)全新的話題了。2016年8月,萬小軍帶領(lǐng)的北大計(jì)算機(jī)所與今日頭套實(shí)驗(yàn)室聯(lián)合推出新一代AI寫稿機(jī)器人——奧運(yùn)AI小記者Xiaomingbot。2017年1月,萬小軍與南方都市報(bào)合作研發(fā)寫稿機(jī)器人“小南”?!靶∶鳌焙汀靶∧稀眰涫荜P(guān)注,引發(fā)很多爭論,正如鄰居小朋友每次考了高分都會(huì)讓你緊張一樣,機(jī)器人在智能上的每一次進(jìn)步,都讓人類擔(dān)心自己的飯碗不保,不少小編“哭暈在廁所”。

當(dāng)南方都市報(bào)將“小南”看作自己的“新同事”的時(shí)候,萬小軍卻對雷鋒網(wǎng)編輯說,“在我眼里,寫稿機(jī)器人就是一個(gè)程序,目前看到的更多的還是不足?!笔畮啄昵?,萬小軍就開始做自然語言處理,開始關(guān)注其在新聞上的應(yīng)用,寫稿機(jī)器人并不是一個(gè)憑空跳出來的擁有華麗簡歷的神同事,而是技術(shù)不斷推進(jìn)和媒體環(huán)境變化的產(chǎn)物。在雷鋒網(wǎng)對萬小軍的專訪中,我們拋開人工智能何時(shí)能超越人類, 機(jī)器人能不能自主思考這樣漫漫而談的終極話題,一起來看看這個(gè)專注于新聞?lì)I(lǐng)域的計(jì)算機(jī)教授究竟在做什么。

新聞是做自然語言處理最規(guī)范的文本

雷鋒網(wǎng):您專注的自然語言處理技術(shù)主要有哪些應(yīng)用場景?

萬小軍:自然語言處理在很多方面都有應(yīng)用價(jià)值,現(xiàn)在的智能問答、人機(jī)交互都需要語言的處理,比如說現(xiàn)在的語音交互就需要機(jī)器對語言的理解,執(zhí)行使用者的指令。另外機(jī)器翻譯、機(jī)器寫稿都是可應(yīng)用的方面,機(jī)器寫稿更側(cè)重于自然語言的生成,是說根據(jù)語義數(shù)據(jù)去生成自然語言文本,機(jī)器的語言理解和語言生成是兩個(gè)相反的過程。

人機(jī)對話中也會(huì)用到自然語言的生成,機(jī)器理解用戶的問話之后,要生成語言來回答。在文化娛樂方面,也可以用自然語言生成技術(shù)來生成詩詞、對聯(lián)等。

雷鋒網(wǎng):同樣都是自然語言生成,人機(jī)對話中的語言生成和機(jī)器人寫稿的語言生成有什么不一樣?

萬小軍:首先是長短不一樣,人機(jī)對話中生成的回復(fù)文本一般比較短,多數(shù)情況下只生成一個(gè)句子,而機(jī)器人寫稿則要生成包含多句話的完整文章,寫稿過程中需要重點(diǎn)考慮篇章結(jié)構(gòu)組織以及語句之間的連貫性。另一方面,對話的生成要重點(diǎn)考慮跟多輪上下文的銜接,也就是“語境”,而寫稿的時(shí)候沒有這種考慮,能夠把一件事情說清楚就行了。最后,人機(jī)對話的語言表達(dá)可以比較口語化,但機(jī)器寫稿傾向于使用比較規(guī)范和正式的語言表達(dá)。

雷鋒網(wǎng):您如何評價(jià)微軟小冰和度秘這一類的語音助手或者說聊天機(jī)器人?

萬小軍:做聊天機(jī)器人如果不限領(lǐng)域的話其實(shí)很難做,如果限定一個(gè)領(lǐng)域的話就可以做的相對較好,例如專注于天氣、體育或者財(cái)經(jīng)。如果允許天馬行空地發(fā)問,機(jī)器人回復(fù)的難度就很大。一般來說,針對一個(gè)狹窄的領(lǐng)域則可以做得很精細(xì),比如就是針對某類產(chǎn)品的客服機(jī)器人?,F(xiàn)在的“問答機(jī)器人”回答的是相對簡單的事實(shí)型問題,但是像“百度知道”里絕大部分問題都是復(fù)雜型問題,問的是怎么樣安裝Windows, 托福怎么樣考高分,怎么樣上北大清華這樣的問題,這些問題機(jī)器不好回答。你要問中國的首都在哪兒,就很好回答,wiki里都有,抽取出來放到知識(shí)庫就可以了?,F(xiàn)在的智能問答聊天系統(tǒng)還不能回答復(fù)雜的問題,解釋事情的原委以及對比。我們得一步一步來,先解決簡單的然后再考慮復(fù)雜的,如果一開始就把復(fù)雜的情況都考慮進(jìn)來那就沒法做了。

雷鋒網(wǎng):您在2004年就有論文關(guān)注新聞?wù)崛?,自然語言處理的應(yīng)用領(lǐng)域很多,為什么選擇并且一直專注在新聞?lì)I(lǐng)域?

萬小軍:自然語言處理的各項(xiàng)研究最早都是針對新聞?wù)Z料開始做的,因?yàn)樾侣勈亲钜?guī)范的文本。如果一開始就在微博、微信和用戶評論這樣的不規(guī)范的文本去做,挑戰(zhàn)會(huì)很大。所以像“自動(dòng)分詞”、“句法分析”、“語義分析”、“自動(dòng)摘要”這些自然語言處理任務(wù)一開始的測試語料都是新聞文本。我們先看在新聞文本上能不能做好,再去考慮其它的,因?yàn)樾侣勏鄬τ谄渌谋緛碚f是最簡單的。

雷鋒網(wǎng):用在新聞上的算法能夠應(yīng)用在別的文本嗎?

萬小軍:應(yīng)該是可以的,但是在精度上肯定是有變化的。比如說“分詞”這個(gè)事情,你在新聞上面分可以達(dá)到95%以上,在微博上可能會(huì)降幾個(gè)點(diǎn),因?yàn)殡y度會(huì)更高,但是方法是可以用的。也可以進(jìn)一步做些針對性處理,提高精度。

寫稿機(jī)器人是新媒體時(shí)代產(chǎn)物

雷鋒網(wǎng):您從事新聞文本挖掘已久,您怎么看待新聞這種文字體裁?機(jī)器人的新聞寫稿得符合哪些基本的要求?(還需要傳統(tǒng)的新聞五要素、客觀性、準(zhǔn)確性這些標(biāo)準(zhǔn)嗎?)

萬小軍:在互聯(lián)網(wǎng)時(shí)代,新聞的定義已經(jīng)跟原來不一樣了。以前要求新聞要客觀準(zhǔn)確,而目前網(wǎng)絡(luò)上標(biāo)題黨橫行,很吸引眼球,很多人看。自媒體時(shí)代,人人都可以寫稿,新聞不再只是由專業(yè)寫稿人生產(chǎn)?,F(xiàn)在更重要的是實(shí)時(shí)、有趣。自媒體時(shí)代每個(gè)人都在發(fā)聲,機(jī)器將微博內(nèi)容和評論整合起來就能出一篇新聞,這在以前是沒有的。新聞的定義在互聯(lián)網(wǎng)時(shí)代發(fā)生了變化。專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017


雷鋒網(wǎng):新媒體時(shí)代的新聞已經(jīng)發(fā)生了變化,您在與新媒體和傳統(tǒng)媒體公司合作“寫稿機(jī)器人”的時(shí)候,感受到新媒體與傳統(tǒng)媒體哪些不同?

萬小軍:他們對機(jī)器人寫稿的看法有不一樣。今日頭條會(huì)將Xiaomingbot生產(chǎn)的內(nèi)容直接發(fā)布,但是南都還是比較傳統(tǒng)一點(diǎn),在發(fā)布到自己的app上時(shí)還是會(huì)經(jīng)過人工審核。從傳統(tǒng)媒體的立場,他們希望發(fā)布的信息要很準(zhǔn)確。而自媒體更注重量大,側(cè)重時(shí)效,吸引用戶閱讀。

專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017


雷鋒網(wǎng):您與今日頭條Xiaomingbot寫稿機(jī)器人的合作是如何開始的?

萬小軍:剛開始也是機(jī)緣巧合。我們團(tuán)隊(duì)當(dāng)時(shí)在ACL上發(fā)表了一篇論文(《Towards Constructing Sports News from Live Text Commentary》),是一篇關(guān)于利用體育直播文字進(jìn)行新聞稿寫作的論文,我們當(dāng)時(shí)已經(jīng)做出了DEMO。當(dāng)時(shí)正是2016年里約奧運(yùn),他們看到了我們的論文,邀請我們?nèi)プ鰣?bào)告,然后在兩周內(nèi),我們就將寫稿機(jī)器人產(chǎn)品做出來了。我們這次的研究離實(shí)用很近,雙方的對接也很簡單。

專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017


雷鋒網(wǎng):在今日頭條后,您又與南方都市報(bào)展開了合作,兩次合作有什么不一樣?

萬小軍:南都不一樣在于他們主要是依據(jù)數(shù)據(jù)寫稿,從12306網(wǎng)站抓取車票的數(shù)據(jù),以及天氣預(yù)報(bào)這樣的結(jié)構(gòu)化的數(shù)據(jù)去生成報(bào)道。頭條既有基于體育比賽數(shù)據(jù)去生成報(bào)道,也有基于體育賽事的文字直播去生成報(bào)道。宏觀上來說,從數(shù)據(jù)到文本的生成框架是類似的,但具體到每個(gè)步驟卻是不同的,需要的數(shù)據(jù)分析就是不一樣的,例如分析火車票的余票與分析天氣預(yù)報(bào)是不一樣的,最后的語言表達(dá)也是不一樣的。具體做起來,每個(gè)領(lǐng)域要重新花很多力氣,沒辦法一套東西又可以做天氣,又可以做體育。

雷鋒網(wǎng):目前今日頭條和南方都市報(bào)在運(yùn)營寫稿機(jī)器人過程中有什么反饋?他們是否達(dá)成了節(jié)省人力提升效率的目標(biāo)?

萬小軍:今日頭條寫稿的量比較大,確實(shí)節(jié)省了很多人力。南方都市報(bào)的量要小一些,更多的是一種實(shí)驗(yàn)性、探索性的目的。南都的優(yōu)勢還是在于比較傳統(tǒng)的深度報(bào)道,目前寫稿機(jī)器人還是很難替代深度報(bào)道的。但是他們需要關(guān)注這樣的技術(shù)趨勢,積極去探索,這樣才能更好地把握未來。每家媒體對于寫稿機(jī)器人與記者如何協(xié)同分工都是不一樣的,但是目前的新媒體平臺(tái)很需要寫稿機(jī)器人來及時(shí)快速地進(jìn)行內(nèi)容創(chuàng)作與發(fā)布。

 以技術(shù)研究為驅(qū)動(dòng),落地是緣分

雷鋒網(wǎng):您目前與企業(yè)的合作可以被看作是產(chǎn)學(xué)研結(jié)合的模式,這種模式有什么優(yōu)劣勢?

萬小軍:優(yōu)勢是你會(huì)有一定經(jīng)費(fèi)支持做研究,通過應(yīng)用可以擴(kuò)大影響力,讓更多的人知道機(jī)器寫稿,獲得業(yè)界和大眾的關(guān)注,要是只是自己發(fā)論文就只能在小圈子里。但是做應(yīng)用還是會(huì)耗費(fèi)不少做研究的時(shí)間和精力,畢竟做應(yīng)用跟做研究還是有很大差別的。做研究的時(shí)候,你把性能從71%提升到72%,有新的方法論就是好的研究成果。但是做應(yīng)用的時(shí)候,71%到72%是沒有用的,你得到85%以上才行,對效果要求比方法要求高。你方法再笨,怎么實(shí)現(xiàn)都無所謂,只要能做出來。而研究要求你有創(chuàng)新。要是你的方法又創(chuàng)新又能直接應(yīng)用,那當(dāng)然是最好的。95%以上的研究論文都離實(shí)用差得很遠(yuǎn)。

雷鋒網(wǎng):自然語言處理在很大程度上依賴數(shù)據(jù),在數(shù)據(jù)上面您有遇到難題嗎?

萬小軍:我們做自然語言處理研究用的數(shù)據(jù)是人工標(biāo)注過的數(shù)據(jù),產(chǎn)業(yè)界的數(shù)據(jù)量很大,但是很多都沒有標(biāo)注。很多新聞沒有標(biāo)出時(shí)間、地名、人名、事件,這樣的數(shù)據(jù)用處也沒有那么大。學(xué)術(shù)界會(huì)經(jīng)常共享人工標(biāo)注的數(shù)據(jù),產(chǎn)業(yè)界也會(huì)提供一些數(shù)據(jù)。比如說我們今年依托NLPCC會(huì)議跟今日頭條合作舉辦了一個(gè)“單文檔摘要”的評測任務(wù),用了今日頭條大概十萬條的標(biāo)注數(shù)據(jù)。目前遇到的問題是,比如我們要做“多文檔摘要”,基于多篇文章去得到一個(gè)高度總結(jié),這樣的數(shù)據(jù)學(xué)術(shù)界只有一兩百條左右。但這樣規(guī)模的數(shù)據(jù)要深度學(xué)習(xí)的話是沒法做的,深度學(xué)習(xí)做摘要生成要幾十萬條數(shù)據(jù)。多文檔數(shù)據(jù)產(chǎn)業(yè)界也沒有,他們也沒有做人工的標(biāo)注。學(xué)術(shù)界還是很缺乏數(shù)據(jù)。

專訪北大計(jì)算機(jī)所萬小軍:寫稿機(jī)器人是新媒體時(shí)代的產(chǎn)物| CCF-GAIR 2017

雷鋒網(wǎng):您對新聞寫稿的下一步規(guī)劃?

萬小軍:準(zhǔn)備做的一個(gè)是文本復(fù)述。因?yàn)楝F(xiàn)在做摘要也好,綜述也好,主要還是直接把句子挑選出來,對句子沒有改動(dòng),下一步希望對句子做很大的改動(dòng),保持語義不變,這就是復(fù)述。我們期望做到語言風(fēng)格的轉(zhuǎn)換,例如古龍的風(fēng)格還是金庸的風(fēng)格。另一個(gè)是在寫稿中加入態(tài)度和立場,讓稿件更加生動(dòng)和具有人性。

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)):您是認(rèn)為新聞行業(yè)對寫稿,文本復(fù)述有需求才做的嗎?

萬小軍:我們是技術(shù)驅(qū)動(dòng)的,我沒有去跟公司聊他們的需求,這是我自己想做的一個(gè)事情。但是我相信這項(xiàng)技術(shù)會(huì)很有用,自動(dòng)復(fù)述可以實(shí)現(xiàn)個(gè)性化稿件的生成。研究某項(xiàng)技術(shù)的時(shí)候并不完全是因?yàn)樗袑?shí)用價(jià)值我才考慮去做。

所謂機(jī)器人就是代碼

雷鋒網(wǎng):請問您如何評估寫稿機(jī)器人的稿件質(zhì)量?

萬小軍:有一個(gè)客觀的評價(jià),讓幾個(gè)人分別寫出不同的稿件,把這些稿件作為答案,把系統(tǒng)生成的稿件和人寫的稿件做一個(gè)匹配,看重合度有多高。進(jìn)一步的就是人工去打分,這個(gè)稿件從內(nèi)容覆蓋性、可讀性等方面進(jìn)行打分。我們目前并沒有直接將寫稿機(jī)器人與人類進(jìn)行PK,因?yàn)楦煌娜巳K可能會(huì)得到不同的比較結(jié)果。你跟寫稿專家去比,還是跟初中生小學(xué)生去比。每個(gè)人的寫作水平差距很大,因此就不太好比。跟記者比深度報(bào)道寫稿機(jī)器人會(huì)輸,要是比數(shù)據(jù)新聞,機(jī)器當(dāng)然更快更精準(zhǔn)。從今日頭條的用戶反饋來看,很多人沒有區(qū)別機(jī)器人的稿子和記者的稿子。

雷鋒網(wǎng):自然語言處理領(lǐng)域有什么前沿的新技術(shù)嗎?

萬小軍:基于深度學(xué)習(xí)進(jìn)行自然語言處理研究是一個(gè)趨勢,但其實(shí)整個(gè)自然語言處理并沒有因?yàn)椴捎昧松疃葘W(xué)習(xí)技術(shù)而得到一個(gè)突飛猛進(jìn)的進(jìn)展。深度學(xué)習(xí)的應(yīng)用對視覺和語音等領(lǐng)域取得了顯著的推動(dòng)作用,但是自然語言處理很多任務(wù)并沒有獲得實(shí)質(zhì)性的性能提升。深度學(xué)習(xí)能夠從圖像和語音信號中獲得有意義的抽象特征,但是對文本來講,以前用的特征就是詞,這已經(jīng)是有意義的特征了,用深度學(xué)習(xí)去做的時(shí)候是否能學(xué)到比詞更有意義的特征。此外,語言的動(dòng)態(tài)變化,語義的模糊性也導(dǎo)致了自然語言處理是非常困難的。


雷鋒網(wǎng):能談?wù)勀J(rèn)為自然語言處理要實(shí)現(xiàn)的目標(biāo)嗎?

萬小軍:自然語言處理是很復(fù)雜的事情,要做到完全的理解是很難的,我不敢拍胸脯說在多少年以后一定能實(shí)現(xiàn)語言理解。但是在特定的應(yīng)用上可以做的很好,做這些應(yīng)用不需要做到理解,例如機(jī)器翻譯,系統(tǒng)不需要完全理解輸入的文本之后再去翻譯。做很多應(yīng)用的時(shí)候可以不用考慮理解,雖然有些廠商號稱自己是理解之后再去做的。人機(jī)對話也主要是一個(gè)搜索與匹配問題,你不要問機(jī)器到底有沒有理解人類的問話以及它自己生成的答復(fù)。

雷鋒網(wǎng):能分享一些您在創(chuàng)造寫稿機(jī)器人過程中的趣事或者感悟嗎?您怎么看待自己的寫稿機(jī)器人?

萬小軍:平時(shí)還是挫敗感比較多,有趣的比較少。很多時(shí)候想到一個(gè)辦法,但是就是結(jié)果調(diào)不出來。其實(shí)將“Xiaomingbot”、“小南”稱之為機(jī)器人并不是特別契合,因?yàn)樗鼈兤鋵?shí)就是軟件,你給它一個(gè)輸入,得到輸出,他沒有人性化。我們自己做出的軟件,一分解之后就是一行行代碼而已。我們自己知道它其實(shí)沒有那么聰明。

 在交流過程中,雷鋒網(wǎng)編輯發(fā)現(xiàn)萬小軍老師是嚴(yán)謹(jǐn)而實(shí)誠的研究者,他沒有用大概念,大方向來解說自己的項(xiàng)目,而是真切地分析每一個(gè)問題。時(shí)間有限的采訪里我們得到了很多實(shí)在的觀點(diǎn):

  • 自然語言處理有多種應(yīng)用場景,萬小軍選擇新聞?lì)I(lǐng)域是因?yàn)樾侣勎谋揪邆渥畲蟮囊?guī)范性,從簡到難,新聞?lì)I(lǐng)域的寫稿機(jī)器人的算法也可以逐步應(yīng)用到其他領(lǐng)域;

  • 摘要與文本生成技術(shù)的開端很早,近年才火起來是由于新媒體時(shí)代的到來,我們的信息生產(chǎn)、傳達(dá)和接收方式都發(fā)生了改變,寫稿機(jī)器人具備的快速、精準(zhǔn)、大量的特點(diǎn)使其在新媒體時(shí)代大放光彩,這項(xiàng)技術(shù)也是傳統(tǒng)媒體渴望轉(zhuǎn)型或者跟上時(shí)代所需關(guān)注的;

  • 學(xué)術(shù)的研究要落地應(yīng)用是很難的,研究和行業(yè)應(yīng)用是兩回事,產(chǎn)學(xué)研合作的模式能提供一些有利資源,但是萬小軍還是更希望以技術(shù)驅(qū)動(dòng)來進(jìn)行研究,而不是以市場需求來進(jìn)行研究;

  • 自然語言處理領(lǐng)域要取得突破很困難,很難說什么時(shí)候機(jī)器能實(shí)現(xiàn)真正的理解。但是一步一步做起,先解決簡單的事情再考慮復(fù)雜的,如果一開始就思考復(fù)雜的或者終極的問題是無法做成的。

 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報(bào)道、行業(yè)交流請加微信“Hanass”
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說