0
本文作者: 蔣鴻昌 | 2017-07-08 10:30 | 專題:GAIR 2017 |
雷鋒網(wǎng)消息,7月8日,CCF-GAIR全球人工智能與機(jī)器人峰會(huì)進(jìn)入第二天,CCF-GAIR由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦。在AI+專場(chǎng),北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍,作為AI+專場(chǎng)的開場(chǎng)嘉賓,為我們帶來了主題為《機(jī)器寫稿技術(shù)與應(yīng)用》的演講。
機(jī)器寫稿的背景與現(xiàn)狀
在國外,已經(jīng)有三家著名的提供機(jī)器寫稿技術(shù)的公司,包括ARRIA、AI、 NARRATIVESCIENCE,為美聯(lián)社等多家知名媒體寫了數(shù)千萬篇稿件,當(dāng)然這是面向英文或者是西方的語言。
隨著人工智能技術(shù)的發(fā)展,國內(nèi)的機(jī)器寫稿也逐漸受到關(guān)注,有很多的媒體在和一些學(xué)術(shù)機(jī)構(gòu)進(jìn)行合作,推出一些寫稿機(jī)器人;另外是互聯(lián)網(wǎng)巨頭,包括微軟、百度、騰訊、今日頭條,也在研發(fā)機(jī)器寫稿技術(shù)。寫稿的內(nèi)容主要側(cè)重在體育、財(cái)經(jīng)、民生領(lǐng)域。
以新華社寫稿機(jī)器人快筆小新撰寫的財(cái)報(bào)新聞為例,其技術(shù)流程為:數(shù)據(jù)采集 - 數(shù)據(jù)加工 - 自動(dòng)寫稿 - 編輯簽發(fā),它的寫作方式還是比較死板的。
對(duì)于原創(chuàng)新聞和二次創(chuàng)作,前者指直接從數(shù)據(jù)生成原始稿件,比如天氣預(yù)報(bào),年報(bào)財(cái)報(bào);后者指基于已有稿件內(nèi)容創(chuàng)作新稿件,兩種稿件涉及到不同的技術(shù):第一種是自然語言處理技術(shù),即從我語義的表達(dá)生成自然語言;第二種是自動(dòng)摘要,從已有的文字素材去給它摘要,生成一個(gè)新的稿件。
還有一些其他相關(guān)的技術(shù),包括文本信息推薦技術(shù),文本復(fù)述技術(shù),前者指自動(dòng)為你插入你想引用的唐詩宋詞、名人名言等,后者指在保持同樣的語義的前提下,自動(dòng)使用不同的語言表達(dá),以規(guī)避版權(quán)問題。這里有一個(gè)例子是說“梅西獲得了5座金球獎(jiǎng)”,你可以改為“梅西是五屆金球獎(jiǎng)得主”,也可以改寫為“金球獎(jiǎng)5次頒給了梅西”。
對(duì)于更受關(guān)注的寫稿機(jī)器人與記者的關(guān)系:目前為止應(yīng)該是一種分工協(xié)作的關(guān)系,就是說機(jī)器人現(xiàn)在可能不具有邏輯思維的能力,也不具有深度總結(jié)的能力,它只能去把一個(gè)基本的新聞事實(shí)描述清楚,但是我們記者就可以寫深度報(bào)道。
我們?cè)跈C(jī)器寫稿方面的技術(shù)研究
我們做了很多的基礎(chǔ)技術(shù)性的研究,包括基礎(chǔ)的自動(dòng)文摘、自然語言生成等等,另外也做了很多的應(yīng)用研究,包括新聞資訊生成、綜述生成以及用戶評(píng)論自動(dòng)生成。我們介紹幾個(gè)代表性的結(jié)果。
除了根據(jù)結(jié)構(gòu)化數(shù)據(jù)和素材生成的新聞簡訊,我們還可以生成體育賽事的長篇報(bào)道。怎么生成呢?我們發(fā)現(xiàn)有一個(gè)很重要的素材,就是體育的直播文字。我們經(jīng)常發(fā)現(xiàn)一個(gè)很著名的體育比賽下面都有文字直播,或者是通過視頻直播轉(zhuǎn)成文字直播,這個(gè)文字直播中通常包含主持人對(duì)這樣一個(gè)比賽的精彩細(xì)節(jié)的描述,我們通過機(jī)器學(xué)習(xí)的手段,能夠把這些精彩的描述挑選出來,放到我們最終的報(bào)道中,這個(gè)報(bào)道就寫得比較長,可以達(dá)到上千字以上。
這是一個(gè)生成長篇報(bào)道的過程,首先對(duì)直播文字進(jìn)行語句的智能排序,再進(jìn)行智能選擇,這都是借助機(jī)器學(xué)習(xí)的手段,最后生成一個(gè)平均長度超過1000字的賽事的報(bào)道。
另外,在娛樂新聞和自動(dòng)生成評(píng)論上,我們也有不錯(cuò)的成果。
目前,我們分別和今日頭條、南方都市報(bào)及廣州日?qǐng)?bào)合作推出了小明、小南和阿同機(jī)器人。
未來的趨勢(shì)展望
機(jī)器寫稿不光是在媒體行業(yè),現(xiàn)在也在跟一些游戲行業(yè)和情報(bào)行業(yè)合作。未來,只要什么時(shí)候你需要寫這樣一些報(bào)告,比如一些行業(yè)報(bào)告,或者寫一些稿件,都會(huì)用到機(jī)器寫稿,不光是媒體,其它的行業(yè)也會(huì)用到。
第二個(gè)方向,我們現(xiàn)在寫的稿件還主要側(cè)重對(duì)客觀事實(shí)的描寫,還沒有加入太多的態(tài)度和立場(chǎng),因此顯得人性化方面不太理想,下一步會(huì)讓我們的稿件自己具有一定的立場(chǎng)。
第三點(diǎn)也是最難的一點(diǎn),就是讓機(jī)器學(xué)會(huì)推理和歸納,寫出真正的深度報(bào)道,比如說我們報(bào)道一場(chǎng)足球比賽以后,我們要分析一下為什么是這樣的結(jié)果,把這個(gè)原因進(jìn)行推理總結(jié)出來,這樣的報(bào)道就是真正的智能的,這是下一步要研究的目標(biāo)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章