0
本文作者: Dude | 2017-09-09 15:37 |
雷鋒網(wǎng)按:9月8日。二十國(guó)(G20)智慧創(chuàng)新論壇在深圳召開,大會(huì)共設(shè)置了人工智能、大數(shù)據(jù)、精準(zhǔn)醫(yī)療在內(nèi)的13個(gè)板塊。
其中在人機(jī)交互的板塊里,百度的"小度機(jī)器人”和Hanson Robotics的“Han”同臺(tái),展示人工智能領(lǐng)域自然語(yǔ)言處理技術(shù)的現(xiàn)階段水平。
雷鋒網(wǎng)整理發(fā)現(xiàn),小度機(jī)器人誕生于2014年,2014年9月16日江蘇衛(wèi)視的芝麻開門首次亮相。小度機(jī)器人集成自然語(yǔ)言處理、對(duì)話系統(tǒng)、語(yǔ)音視覺等技術(shù),能與用戶進(jìn)行信息、服務(wù)、情感等方面的交流服務(wù)。另一個(gè)同臺(tái)對(duì)話機(jī)器人“Han”是表情機(jī)器人Hanson Robotics的作品,“Han”是仿生機(jī)器人,其皮膚是使用仿生皮材料制成,有著人類外形以及能夠模仿人類的表情。在現(xiàn)場(chǎng)當(dāng)中“Han”做出的生氣、開心、沮喪、思考、驚恐五個(gè)表情,與人類相仿。在“Han”和小度機(jī)器人的交互中,小度探測(cè)出了“Han”的活體程度非常低。
其中百度技術(shù)委員會(huì)主席吳華也主席了本次活動(dòng),并發(fā)表主題為自然語(yǔ)言處理技術(shù)和應(yīng)用的演講,介紹了小度機(jī)器人背后的技術(shù),雷鋒網(wǎng)在不改變?cè)獾幕A(chǔ)上進(jìn)行編輯。
以下為吳華的演講實(shí)錄:
大家好,小度體現(xiàn)了能聽、能看、能說(shuō)、能動(dòng)等能力,其實(shí)背后是百度人工智能在支撐小度,比如說(shuō)語(yǔ)音技術(shù)、視覺技術(shù)和自然語(yǔ)言技術(shù)。能使機(jī)器和人用自然語(yǔ)言進(jìn)行交互,一直是人工智能的夢(mèng)想。要實(shí)現(xiàn)這一夢(mèng)想,自然語(yǔ)言處理技術(shù)是非常關(guān)鍵的。所以今天我匯報(bào)的主題是“自然語(yǔ)言處理技術(shù)和應(yīng)用”。
我們知道自然語(yǔ)言處理技術(shù)是為了實(shí)現(xiàn)人和計(jì)算機(jī)或者機(jī)器之間,通過(guò)自然語(yǔ)言溝通,這里面主要包含語(yǔ)言理解和語(yǔ)言生成。在這基礎(chǔ)上,我們可以支撐三大應(yīng)用系統(tǒng),比如說(shuō)機(jī)器翻譯、問(wèn)答系統(tǒng)以及對(duì)話系統(tǒng)。
首先,我們來(lái)看一下自然語(yǔ)言處理技術(shù)的發(fā)展里程碑,自然語(yǔ)言處理技術(shù)主要有三個(gè)發(fā)展期:萌芽期、發(fā)展期以及繁榮期。自然語(yǔ)言處理技術(shù)發(fā)展的歷史,就是一部機(jī)器翻譯的發(fā)展史,1947年,在發(fā)布了機(jī)器翻譯備忘錄之后,提出了基于規(guī)則、實(shí)例和統(tǒng)計(jì)的方法。近年也提出了基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng),而這些技術(shù)的發(fā)展促進(jìn)了機(jī)器翻譯質(zhì)量的提高,也加速了機(jī)器翻譯的商業(yè)進(jìn)程,比如說(shuō)應(yīng)用于電子商務(wù)、多語(yǔ)言翻譯等。同時(shí),在萌芽期發(fā)布了神經(jīng)語(yǔ)言理論,這個(gè)理論奠定了在自然語(yǔ)言處理領(lǐng)域的地位。接著是發(fā)展期,首次出現(xiàn)了人機(jī)對(duì)話系統(tǒng),在這基礎(chǔ)上,我們有很多規(guī)則方法應(yīng)用于自然語(yǔ)言處理各個(gè)領(lǐng)域。最后是繁榮期,統(tǒng)計(jì)方法是重要的主流方法,同時(shí)在這個(gè)時(shí)期,有兩個(gè)跨時(shí)代的技術(shù)突破。2011年,IBM的Watson問(wèn)答技術(shù)首次超過(guò)人類得到冠軍。2014年,在圖靈測(cè)試的大會(huì)上,有聊天程序利用人工智能,通過(guò)了圖靈測(cè)試。所有技術(shù)的發(fā)展都離不開大數(shù)據(jù)的獲得,尤其是在互聯(lián)網(wǎng)發(fā)達(dá)的時(shí)代。近年來(lái),人工智能技術(shù)進(jìn)一步發(fā)展,也推進(jìn)了自然語(yǔ)言技術(shù)進(jìn)程。
比如,今年發(fā)布的新一代的人工智能規(guī)劃,自然語(yǔ)言處理被列為關(guān)鍵的共性技術(shù)。同時(shí)在百度的人工智能布局中,自然語(yǔ)言處理也是關(guān)鍵的認(rèn)知技術(shù)?,F(xiàn)在的人工智能創(chuàng)業(yè)公司,特別是美國(guó)的創(chuàng)業(yè)公司,自然語(yǔ)言領(lǐng)域的創(chuàng)業(yè)公司排在首位。在中國(guó)的人工智能創(chuàng)業(yè)公司中,自然語(yǔ)言這個(gè)領(lǐng)域排在第三位,僅次于視覺和智能機(jī)器人。
這些創(chuàng)業(yè)領(lǐng)域包括人機(jī)對(duì)話,有智能創(chuàng)作、智能客服、輿情分析、內(nèi)容分析、機(jī)器翻譯等等。而這些應(yīng)用的背后,都離不開技術(shù)的發(fā)展,尤其是大數(shù)據(jù)和知識(shí)獲取越來(lái)越容易。同時(shí),機(jī)器學(xué)習(xí)的進(jìn)展,特別是深度學(xué)習(xí)的進(jìn)展,也促進(jìn)了自然語(yǔ)言的發(fā)展,這三者相輔相成,就促進(jìn)了自然語(yǔ)言技術(shù)的商業(yè)進(jìn)程。
我們可以通過(guò)機(jī)器翻譯進(jìn)程看出,統(tǒng)計(jì)機(jī)器翻譯在1995年提出,經(jīng)過(guò)了15年的發(fā)展,才出現(xiàn)了第一個(gè)大規(guī)模的互聯(lián)網(wǎng)翻譯系統(tǒng)。但是在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的方法提出之后,一年就出現(xiàn)了大規(guī)模的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),之后各個(gè)大公司都發(fā)布了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。這個(gè)翻譯系統(tǒng)質(zhì)量的提升,也促進(jìn)了自然語(yǔ)言技術(shù)的發(fā)展。盡管這個(gè)自然語(yǔ)言技術(shù)得到了發(fā)展,但是,我們的目標(biāo)是希望讓機(jī)器像人一樣思考。
在這個(gè)過(guò)程中,我們做了哪些努力?比如說(shuō)我們?cè)谥悄芙换?、智能?chuàng)作以及智能推進(jìn)中,推薦應(yīng)用中,自然語(yǔ)言處理技術(shù)都起到了舉足輕重的作用。首先我們來(lái)介紹智能交互,比如在百度、Google、微軟、Facebook都發(fā)布了智能助手,或者是聊天的程序,其實(shí)最終目標(biāo)都是為實(shí)現(xiàn)人和機(jī)器之間的交互。同時(shí)這種交互的承載裝置也發(fā)生了變化,比如說(shuō)亞馬遜的Echo音箱,還有機(jī)器人的形式。應(yīng)用領(lǐng)域或者應(yīng)用場(chǎng)景也發(fā)生了變化,可以在車載中,在汽車中,在家里,在公共領(lǐng)域。就像我們剛才看到的小度機(jī)器人,它現(xiàn)在在百度的大廳里面服務(wù),可以查詢信息,以及跟百度辦公室相關(guān)的路線、班車等等信息。
為了實(shí)現(xiàn)這樣的人機(jī)交互,百度也發(fā)布了讓開發(fā)者更容易入門的交互平臺(tái)Unit。這個(gè)平臺(tái)面向具體任務(wù),面向開發(fā)者,開發(fā)者只要做少量的工作,就可以定制任務(wù)。在這平臺(tái)中,我們集成了多引擎驅(qū)動(dòng)的語(yǔ)義理解技術(shù)。也就是說(shuō),利用這個(gè)技術(shù),我們可以實(shí)現(xiàn)快速的迭代,持續(xù)學(xué)習(xí)。
百度Unit已經(jīng)可以應(yīng)用于各種應(yīng)用中,比如家具,在電視盒子里面,可以通過(guò)語(yǔ)音去交互,查找你想要的節(jié)目,只要?jiǎng)涌?,不用?dòng)手。還有就是幫助考生查詢他填報(bào)的高考志愿。還可以應(yīng)用于智能客服、地圖、語(yǔ)音導(dǎo)航,語(yǔ)音路線查詢等。除了和機(jī)器進(jìn)行對(duì)話,我們也希望機(jī)器能夠像人一樣創(chuàng)作,可以寫作、做詩(shī)等。
除了寫詩(shī)以外,我們希望機(jī)器人也可以寫文章。機(jī)器人通過(guò)各種規(guī)劃,主題觸發(fā)、句子的凝練相結(jié)合才能完成寫作。比如在寫文章之前,需要基于用戶感興趣的文章并構(gòu)建熱點(diǎn),然后完成脈絡(luò)梳理以及文章的生成,最后發(fā)布在百家號(hào)。
除了寫詩(shī)和寫文章以及對(duì)話,我們也希望能實(shí)現(xiàn)人工智能推薦。我們的主要目標(biāo)是實(shí)現(xiàn)“即搜即得”,搜索是主動(dòng)行為,而智能推薦是一個(gè)被動(dòng)行為,我們希望用戶能夠從浩瀚資源的過(guò)程當(dāng)中得到有價(jià)值的內(nèi)容。而要實(shí)現(xiàn)個(gè)性化推薦,就要在用戶興趣和信息之間建立橋梁,而這個(gè)橋梁是我們所說(shuō)的標(biāo)簽圖譜,給用戶和文檔上同樣的標(biāo)簽。舉個(gè)簡(jiǎn)單的事例,在這個(gè)標(biāo)簽(系統(tǒng))里面我們有主題標(biāo)簽,有話題標(biāo)簽,有事例標(biāo)簽等,這些標(biāo)簽之間建成了一個(gè)網(wǎng)絡(luò),其之間有關(guān)聯(lián),關(guān)聯(lián)的強(qiáng)度都是自動(dòng)從文檔的挖掘或者用戶行為中挖掘才獲得這樣關(guān)聯(lián)的強(qiáng)度。這些關(guān)聯(lián)的強(qiáng)度我們會(huì)用在智能推薦以及個(gè)性化推薦,在話題的聚合以及關(guān)聯(lián)推薦中,形成百度的首頁(yè),通過(guò)手機(jī)百度首頁(yè)可以看到,底下的文章都是通過(guò)這樣的方式來(lái)推薦的。
這些自然語(yǔ)言處理的技術(shù)已經(jīng)發(fā)布在百度的人工智能平臺(tái)上,大家可以通過(guò)百度的網(wǎng)站獲取,網(wǎng)站包括自然語(yǔ)言處理技術(shù)、語(yǔ)音技術(shù)、視覺技術(shù)、用戶畫像等60多種人工智能的技術(shù),百度希望大家跟各個(gè)合作伙伴能共同舉起人工智能的大旗,造福人類生活。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。