0
本文作者: 田苗 | 2017-06-27 15:59 | 專題:GAIR 2017 |
雷鋒網(wǎng)按:由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)全程承辦的 AI 盛會(huì)「全球人工智能與機(jī)器人峰會(huì)」(CCF-GAIR),將于 7.7-7.9 日在深圳召開。
CCF-GAIR 為國內(nèi)外學(xué)術(shù)、業(yè)界專家提供了一個(gè)廣闊的交流平臺(tái),既在宏觀上把握全球人工智能趨勢(shì)脈搏,也深入探討人工智能在每一個(gè)垂直領(lǐng)域的應(yīng)用實(shí)踐細(xì)節(jié)。延續(xù)上一次大會(huì)的議題,本次 CCF-GAIR 2017 將會(huì)迎來更多人工智能和機(jī)器人行業(yè)的議題與討論。
說到機(jī)器人,就不得不說近兩年在媒體行業(yè)火起來的寫稿機(jī)器人。從 2015 年開始,騰訊、百度、今日頭條,以及傳統(tǒng)媒體南方都市報(bào)先后加入寫稿機(jī)器人的大軍,特別是今日頭條和和南方都市報(bào)的背后,離不開北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所(以下簡稱北大計(jì)算機(jī)所)的支持。
2016 年 8 月,北大計(jì)算機(jī)所與今日頭條實(shí)驗(yàn)室聯(lián)合研發(fā)推出新一代 AI 寫稿機(jī)器人——奧運(yùn)AI小記者Xiaomingbot,這是國內(nèi)第一款綜合利用大數(shù)據(jù)分析、自然語言處理與機(jī)器學(xué)習(xí)技術(shù)的人工智能寫稿機(jī)器人。
隨后,2017 年 1 月,南方都市報(bào)的寫稿機(jī)器人“小南”正式上崗。同時(shí),南方都市報(bào)社與北大計(jì)算機(jī)所和凱迪網(wǎng)絡(luò)三方簽署戰(zhàn)略合作協(xié)議,聯(lián)合成立“智媒體實(shí)驗(yàn)室”,小南正是他們的第一個(gè)成果。
不管是互聯(lián)網(wǎng)公司,還是傳統(tǒng)媒體,紛紛與北大計(jì)算機(jī)所建立合作,那么,該研究所是一種怎樣的存在?
根據(jù)其官方網(wǎng)介紹,該研究所是北京大學(xué)的二級(jí)科研教學(xué)機(jī)構(gòu),研究方向主要包括圖形圖像處理技術(shù)與數(shù)字出版應(yīng)用、數(shù)字內(nèi)容計(jì)算與知識(shí)服務(wù)技術(shù)研究、網(wǎng)絡(luò)視音頻處理與檢索技術(shù)、數(shù)字文檔處理技術(shù)、信息安全技術(shù)。過去,北大計(jì)算機(jī)所圍繞計(jì)算機(jī)技術(shù)在印刷、新聞出版領(lǐng)域的核心應(yīng)用做了不少創(chuàng)新性的研發(fā)工作。
其中,負(fù)責(zé)上述兩次寫稿機(jī)器人研發(fā)工作的便是語言計(jì)算與互聯(lián)網(wǎng)挖掘研究室。該研究室成立于 2008 年 7月,負(fù)責(zé)人為萬小軍,他們主要以自然語言處理技術(shù)、數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ),對(duì)互聯(lián)網(wǎng)上多源異質(zhì)的文本大數(shù)據(jù)進(jìn)行智能分析與深度挖掘,為互聯(lián)網(wǎng)搜索、輿情與情報(bào)分析、寫稿與對(duì)話機(jī)器人等系統(tǒng)提供關(guān)鍵技術(shù)支撐,并從事計(jì)算機(jī)科學(xué)與人文社會(huì)科學(xué)的交叉科學(xué)研究。
目前,研究室的研究內(nèi)容包括以下幾個(gè)方面:
研制全新的語義分析系統(tǒng)實(shí)現(xiàn)對(duì)人類語言(尤其是漢語)的深層語義理解;
綜合利用自動(dòng)文摘、文本生成、文本推薦等技術(shù)讓機(jī)器寫出高質(zhì)量的各類稿件;
針對(duì)多語言互聯(lián)網(wǎng)文本實(shí)現(xiàn)高精度情感、立場(chǎng)與幽默分析;
其他探索性研究,包括特定情境下的人機(jī)對(duì)話技術(shù)。
語言計(jì)算與互聯(lián)網(wǎng)挖掘研究室負(fù)責(zé)人萬小軍
萬小軍本人的研究領(lǐng)域包括自然語言處理、文本挖掘和人工智能,在 2015 年獲得 IBM 全球杰出學(xué)者獎(jiǎng)(IBM Faculty Award),同時(shí)他的一篇關(guān)于采用特征工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在 ACL2016 (ACL,國際計(jì)算語言學(xué)協(xié)會(huì),是世界上影響力最大的國際學(xué)術(shù)組織)引起了廣泛關(guān)注。
從現(xiàn)有的寫稿機(jī)器人來看,多數(shù)專注于財(cái)經(jīng)、體育等領(lǐng)域,由于這兩個(gè)領(lǐng)域有一定的規(guī)則和數(shù)據(jù)可尋,實(shí)現(xiàn)起來也較為容易。但,是不是其他領(lǐng)域就無法使用寫稿機(jī)器人了呢?北大計(jì)算機(jī)所與南方都市報(bào)合作的“小南”便打消了這個(gè)疑問。小南推出的時(shí)間在 2017 年春運(yùn)期間,專注于民生領(lǐng)域的報(bào)道,首篇報(bào)道共 300 余字,數(shù)據(jù)自動(dòng)抓取完成后,報(bào)道生成只用了不到一秒的時(shí)間。萬小軍曾向媒體表示,教小南寫稿過程中,難點(diǎn)是可供學(xué)習(xí)的樣本不夠豐富,盡管民生關(guān)注度高,但不像體育和財(cái)經(jīng)報(bào)道有相對(duì)固定的模式,訓(xùn)練資料較為缺乏。
另外,小南的另一項(xiàng)本領(lǐng)是生成報(bào)告摘要。萬小軍介紹,小南采用了先進(jìn)的自動(dòng)文摘技術(shù),該技術(shù)可以根據(jù)多種文本特征,如關(guān)鍵詞、段落位置等,判斷不同信息的重要性,最終在摘要里保留核心部分。
實(shí)際上,除了寫稿,寫稿機(jī)器人未來還有很多潛力可開發(fā),如對(duì)已有的稿件進(jìn)行改寫,根據(jù)不同的稿件寫綜合報(bào)道等等。不過,機(jī)器人畢竟是機(jī)器人,還是有很多事情是無法取代人工的,現(xiàn)在倒是有不少媒體人直呼,什么時(shí)候這些寫稿機(jī)器人可以開放給所有媒體人使用。
雷鋒網(wǎng)編輯有些迫不及待地想要這樣的一個(gè)幫手了。在7月7-9日的CCF-GAIR大會(huì)上,萬小軍將到現(xiàn)場(chǎng)為大家分享關(guān)于寫稿機(jī)器人背后的技術(shù),同時(shí)雷鋒網(wǎng)也安排了 AI+ 為主題的專場(chǎng),探討人工智能的現(xiàn)狀與未來,如果想了解這一領(lǐng)域的最新見解與洞察,歡迎購票參加。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章