不成熟的 NLP 技術(shù)與人工智能結(jié)合，下一個(gè)“商機(jī)”在哪兒？

本文作者：王金許

2017-07-30 22:48

導(dǎo)語：“要找到其中的一個(gè)平衡點(diǎn)。”

雷鋒網(wǎng)按：人工智能和自然語言處理技術(shù)的結(jié)合，不僅在資深互聯(lián)網(wǎng)公司的戰(zhàn)略中占據(jù)了重要的地位，也造就了大量極具生命力的創(chuàng)新性公司。人工智能和自然語言處理到底怎樣結(jié)合的？這種結(jié)合存在哪些挑戰(zhàn)？如何克服這些挑戰(zhàn)？未來是否還有更大機(jī)會？

在第二屆語言與智能技術(shù)高峰論壇企業(yè)論壇上，出門問問創(chuàng)始人李志飛、百度自然語言處理部總監(jiān)趙世奇、奇點(diǎn)機(jī)智創(chuàng)始人林德康、微軟亞洲研究院副院長周明、以及中科院軟件研究所研究員孫樂組成了企業(yè)圓桌論壇，中科院信息工程研究生王斌擔(dān)任主持，他們就以上問題進(jìn)行了討論。此外，他們就學(xué)術(shù)界和工業(yè)界的合作，自然語言處理技術(shù)的成熟度與產(chǎn)品需求的匹配等諸多問題也進(jìn)行了深入探討。

不成熟的 NLP 技術(shù)與人工智能結(jié)合，下一個(gè)“商機(jī)”在哪兒？

（雷鋒網(wǎng)注：從左至右依次為王斌、林德康、李志飛、孫樂、趙世奇、劉丹、周明）

以下為對話內(nèi)容實(shí)錄，雷鋒網(wǎng)做了不改變原意的編輯。

王斌：因?yàn)槲乙彩窃瓉碜?NLP 出身的，做自然語言處理了人都知道，其實(shí)自然語言處理里面有很多內(nèi)容，到后面的機(jī)器翻譯，有一些技術(shù)不是很成熟。那么這個(gè)不成熟的技術(shù)怎么變成產(chǎn)品落地？其實(shí)是我們研究人員非常關(guān)心的一個(gè)問題。首先是志飛談一下，中午他就提到對這個(gè)問題有一些很深的看法。

李志飛：我沒有說我有很深的看法，但還是來說一下很淺的看法，確實(shí)自然語言處理的技術(shù)還不是很成熟，所以我覺得如果我需要做在產(chǎn)品里面，舉兩個(gè)例子，首先技術(shù)對用戶真的是必須要用的。

比如說在車載里面如果不用語音來跟這個(gè)機(jī)器對話，然后開車的時(shí)候，我要換一個(gè)地址或者說我導(dǎo)了航又想換音樂，因?yàn)檫@個(gè)時(shí)候用戶沒有別的辦法，所以他可能對你這個(gè)技術(shù)，也沒那么挑剔，而且愿意學(xué)習(xí)一下。如果在手機(jī)上做到這樣的話，他不會來學(xué)習(xí)怎么用的，上來就挑戰(zhàn)他這個(gè)機(jī)器的智商，顯得這個(gè)人自己很聰明，或者調(diào)戲一下。但在這里面，我覺得由于他有這個(gè)需求，所以哪怕自己花點(diǎn)時(shí)間，學(xué)習(xí)適應(yīng)，他可能也會去用。我們在智能車載里面，發(fā)現(xiàn)日活躍 10 個(gè)用戶打開了這個(gè)機(jī)器，可能7個(gè)用戶都會用語音交互。

另外一個(gè)，說白了這個(gè) NLP 或者自然語言對話，你不能把它作為最主要產(chǎn)品最重要的 Feature，只能拔到一個(gè)噱頭或者當(dāng)一個(gè)錦上添花的事情。也就是說，你得構(gòu)建另外一個(gè)產(chǎn)品是用戶必須需要的。在這個(gè)基礎(chǔ)之上，再加上語音對話，有的時(shí)候他想用就用，不想用就不用。但要明白，他不是因?yàn)檫@個(gè)來買單的。

我覺得這兩個(gè)例子是我自己從產(chǎn)品角度去看，就是第一個(gè)用戶必須要用。第二個(gè)可能這個(gè) NLP 的技術(shù)在這里面，不是說它是最最核心的一個(gè)用戶買單的體驗(yàn)。

林德康：對，我們現(xiàn)在在做一部語音助手。但 NLP 技術(shù)好多東西也是不太成熟，其實(shí)我們也沒有指望它是一個(gè)很成熟的技術(shù)。就是說要使用比如 Parsing 或者其他自然語言分析結(jié)果的時(shí)候，就把它會 Fail 的這些因素會考慮進(jìn)去，然后跟其他的方法能夠結(jié)合起來去用。

我們做這個(gè)自然語言產(chǎn)品，沒有志飛他們時(shí)間長，現(xiàn)在體會就是說，對于自然語言這個(gè)產(chǎn)品，一個(gè)很大的困難就是用戶期望很難確定，就是你能做的事情很少，拿個(gè)紙條告訴人家能夠?yàn)樗麄冏鍪裁?，那這就沒什么機(jī)會去用了。另一個(gè)就是說，你讓用戶覺得你能做很多事情，但實(shí)際上沒有任何一個(gè)產(chǎn)品能滿足用戶很多需求，這樣用戶就經(jīng)常很惱火。

我們用一個(gè)辦法去稍微去 Match 用戶期望值到某一個(gè)應(yīng)用里面，那企業(yè)會對這些應(yīng)用有一些期望值。

趙世奇：我的看法第一個(gè)就是 NLP 技術(shù)可能很難講每一個(gè)技術(shù)真的成熟了。分詞可能算是成熟的，包括剛才林老師也說到的 Parsing，它現(xiàn)在的準(zhǔn)確率也不低了，雖然仍然難以說是成熟的，但實(shí)際上，我們會發(fā)現(xiàn)這些大量的自然語言技術(shù)其實(shí)在產(chǎn)品當(dāng)中用的也不少。

舉一個(gè)例子，咱們說到翻譯，其實(shí)在當(dāng)年 Google 那個(gè)時(shí)候上了 Online Translation 的時(shí)候，遠(yuǎn)沒有現(xiàn)在成熟，它仍然是上線了，仍然得到了很多用戶使用。那今天其實(shí)是它在不斷成熟的過程中，作用在不斷的增大，但這不代表它不成熟的時(shí)候，就不能在一定程度上幫助到人們做一些事情。

另外還有一個(gè)方面，我們的產(chǎn)品和技術(shù)怎么互補(bǔ)的問題，當(dāng)技術(shù)不成熟的時(shí)候，就好像說是 “人”這個(gè)字是一撇一捺支撐起來的。其實(shí)我認(rèn)為產(chǎn)品的技術(shù)也是一樣，人工智能產(chǎn)品上的自然語言交互技術(shù)本身現(xiàn)在不成熟，它周邊設(shè)計(jì)了很多具體的技術(shù)。那我們在用的時(shí)候，顯然會遇到的一個(gè)問題，基本上三句就問倒了，或者是不會做什么了。

在這樣的一個(gè)情況下，產(chǎn)品和技術(shù)如何去互補(bǔ)？就像剛才林老師說的，收縮和控制人們的使用預(yù)期，同時(shí)把技術(shù)的那種可能性挽回到極致。我覺得這個(gè)是需要技術(shù)人員和產(chǎn)品人員一起去想辦法解決的問題。

劉丹：我們從做人工智能機(jī)器人是從 2012 年在成都落地來做的項(xiàng)目，當(dāng)時(shí) NLP 我們也就估計(jì)有 3-5 個(gè)人能懂一點(diǎn)，包括分詞、一些智能應(yīng)用識別。

產(chǎn)品我們更多以結(jié)果為導(dǎo)向。相當(dāng)于說它一個(gè)不成熟的東西，你必須把它推到線上。通過線上去論證，直到成熟為止，它從不成熟到成熟的過程，看你怎么定義它，我覺得它相對來說是一個(gè)不穩(wěn)態(tài)。

但是通過現(xiàn)在大數(shù)據(jù)的存在，包括很多的消費(fèi)者用到我們的智能產(chǎn)品，他會幫助我們的技術(shù)、產(chǎn)品做一個(gè)修正和提升，最終走向成熟，我覺得這是非常重要的。就是說我們做的產(chǎn)品或項(xiàng)目也好，肯定是給我們的消費(fèi)者帶來價(jià)值。否則不管成熟或者不成熟，都沒有這個(gè)命題存在。

王斌：大家討論的結(jié)果就是 NLP 這邊有一些地方不太成熟，但是跟應(yīng)用相結(jié)合，找到其中的一個(gè)平衡點(diǎn)。第 2 個(gè)問題就是從這幾年開始大家看到深度學(xué)習(xí)席卷所有的領(lǐng)域，包括 NLP 的領(lǐng)域。那么有一個(gè)問題就是，這個(gè)語言學(xué)難道就沒有什么用了嗎？

周明：我自己的理解，語言學(xué)家其實(shí)在語言很多任務(wù)上起到了很重要的作用。早期就不用說了，寫規(guī)則、語法詞典。其實(shí)就是今天語言還有詞典仍然起作用，比如說情感分析用字典，其實(shí)是語言學(xué)家?guī)椭麃砜偨Y(jié)的。

還有一個(gè)標(biāo)準(zhǔn)體系，比如說情緒有多少種分類，其實(shí)語言學(xué)家可能告訴我們的沒有那么準(zhǔn)，語言學(xué)家?guī)椭覀冎贫w系，這是一個(gè)盲點(diǎn)。

第二個(gè)，語言學(xué)家產(chǎn)生的語料，比如說知識圖譜這些東西，可以幫我們產(chǎn)生數(shù)據(jù)，來增強(qiáng)學(xué)習(xí)過程。

第三個(gè)就是語言學(xué)家可以做測試點(diǎn)，就是做任何自然語言處理的，有幾個(gè)關(guān)鍵的地方一定要測到。那么語言學(xué)家給你寫出這種測試案例來，甚至是系統(tǒng)，就是基于語言點(diǎn)來測試，比你那種盲目的抽樣測試可能更準(zhǔn)。

最后一個(gè)是現(xiàn)在所謂的都在通過大數(shù)據(jù)來進(jìn)行學(xué)習(xí)，但是沒有或者很少進(jìn)行建模和學(xué)習(xí)。恰好語言學(xué)家，能夠提供給予相應(yīng)的指導(dǎo)方式。我認(rèn)為這些領(lǐng)域，大家應(yīng)該巧妙的利用起來才對。

孫樂：我覺得自然語言處理這個(gè)領(lǐng)域，實(shí)際上就是一個(gè)交叉學(xué)科，可能不但需要語言學(xué)，還需要心理學(xué)、哲學(xué)，需要神經(jīng)科學(xué)。比方說，如果我們在建這個(gè)知識圖譜，在見證研究語言的一些關(guān)系。

實(shí)際上你需要去從這些哲學(xué)中，來對自然語言理解的世界進(jìn)行理解，我們要從各個(gè)學(xué)科中去吸取一些新的經(jīng)驗(yàn)。我們學(xué)會在組織每年這種報(bào)告的時(shí)候，我們特別會請一些語言學(xué)家。其中一個(gè)老師他就講了一個(gè)詞性問題，但他分析了大概十幾種語言。

其實(shí)我覺得在場的很多老師得到了很多啟發(fā)，我們在講中文的特殊性，其實(shí)特殊的語言還有很多。還有另外一個(gè)比如說像從認(rèn)知科學(xué)，如果說有這種新語言學(xué)家能夠把嬰兒學(xué)習(xí)語言的過程給我們揭示出來，對我們來說是非常大的一個(gè)幫助。

王斌：下一個(gè)問題是，一方面企業(yè)有真實(shí)的需求，有大量數(shù)據(jù)，也有計(jì)算環(huán)境。但是，研究界也有很多的資源，如何實(shí)現(xiàn)這個(gè)學(xué)術(shù)界和工業(yè)界的共贏？

林德康：其實(shí)，現(xiàn)在說深度學(xué)習(xí)那么重要都是工業(yè)階層，但它是從學(xué)術(shù)界出來的，一直在學(xué)術(shù)界都不受重視，只有那么幾個(gè)學(xué)者一直在堅(jiān)持，堅(jiān)持了幾十年。學(xué)術(shù)界跟工業(yè)界研究不一樣，在工業(yè)界一般有時(shí)間表，哪怕是在 Google 的研究部門也有這個(gè)壓力，會問這個(gè)到底跟現(xiàn)在的產(chǎn)品有沒有相關(guān)性。在產(chǎn)品部門就更是這樣的了，產(chǎn)品部門基本上是按 Quarter 算的。

在學(xué)術(shù)界做研究的話，一般是憑著自己信念、興趣，就不管最后是不是像 Deep Learning 那樣成功，只要這個(gè)過程比較喜歡，才會有人去做。

李志飛：我之前也做過一段時(shí)間研究，后來就創(chuàng)業(yè)了。前一陣子建立了一個(gè)聯(lián)合實(shí)驗(yàn)室，其實(shí)當(dāng)時(shí)我就想說到底怎么樣能夠把企業(yè)跟學(xué)校的研究連起來。在美國的話，像這種暑期訪問都有，但總的來說還沒有達(dá)到一個(gè)特別好的效果。

在中國我覺得就更差，我看百度可能都沒有這種教授暑期訪問的計(jì)劃。我當(dāng)時(shí)想探討的一個(gè)模式是什么呢？就是我特別想把這些博士生或者教授，能夠帶我們公司去待一個(gè)月或者待兩個(gè)星期，先熟悉一下我們的系統(tǒng)，從里面的單元拿幾個(gè)模塊，然后了解每個(gè)模塊大概往里面是怎么插的。

我的目標(biāo)倒不是讓這些老師或者學(xué)生去做我們的系統(tǒng)本身，但我覺得他可以先理解這個(gè)東西，然后再回到學(xué)校去，他甚至去抽象出問題，然后想想他搞的這些研究到底怎么能夠跟我們的系統(tǒng)有一些關(guān)聯(lián)，或者他有一些算法怎么插進(jìn)去。最后，有一些東西，是不是直接會直接放在我們的系統(tǒng)里面去，我覺得這個(gè)是最好的一種模式。

但這個(gè)可能也沒那么容易，因?yàn)楹芏鄬W(xué)生他的壓力很大，系統(tǒng)這個(gè)代碼太復(fù)雜，他看兩天可能就不看了。但我覺得這確實(shí)是特別核心的一件事情，如果說能夠?qū)ο到y(tǒng)又了解，然后又抽象問題，這塊兒又能想出新的 Idea，然后 Idea 可以放在我們的產(chǎn)品里面去。但以前的話，學(xué)術(shù)上做一些 Demo，自己寫不了 App，后臺又沒有，根本就沒法 Demo 看。

而我們這里面其實(shí)一做進(jìn)去可能第二天就可以看見了，所以我覺得能夠以這樣的模式去做的話，其實(shí)你剛才說的數(shù)據(jù)也好， Idea 或者人才成本也好，其實(shí)這些都不是什么問題。

趙世奇：剛才志飛提到教授訪問計(jì)劃，百度其實(shí)是有的，包括青年學(xué)者到百度訪問，一般是幾個(gè)月，也有超過半年，然后確實(shí)也做了一些對于公司很多方向有幫助的一些研究成果，實(shí)習(xí)生就更不用說了。

現(xiàn)在還有另外一個(gè)問題，就是數(shù)據(jù)共享，那我就記得每次參加 Panel 這樣的環(huán)節(jié)，都有這個(gè)問題。就是為什么不公布數(shù)據(jù)、為什么不共享數(shù)據(jù)，你們是有這樣的責(zé)任和義務(wù)的。其實(shí)這對于一個(gè)企業(yè)來說，它有這種服務(wù)用戶的義務(wù)，它為用戶的數(shù)據(jù)去保密，去慎重使用用戶數(shù)據(jù)的義務(wù)。

這個(gè)數(shù)據(jù)能不能在合理合法和恰當(dāng)?shù)姆秶鷥?nèi)和學(xué)術(shù)界來實(shí)現(xiàn)共享，我覺得這個(gè)作為企業(yè)來說，也應(yīng)該算是一個(gè)思考。其實(shí)，之前我們說要不然不共享，要不然就是全盤突出的共享。但我有沒有一個(gè)更安全、更合理方式的保證。我們說大家研究可用，甚至說包括一些開發(fā)者的開發(fā)可用，另一方面我們對于用戶是安全的，也能夠盡到它保護(hù)用戶隱私和數(shù)據(jù)的責(zé)任。

我舉個(gè)例子，像我們現(xiàn)在也在探討一些方式，我們今年開放面向開發(fā)者的一個(gè)平臺，它是做語言理解和交互技術(shù)的。那我們就意識到，開放這樣一個(gè)平臺只有技術(shù)的情況下其實(shí)是不夠的。尤其像理解交互，沒有數(shù)據(jù)的話大家是沒有辦法做的，所以有一種方式就是說，在平臺上大家可以去提交自己標(biāo)注的小范圍、小規(guī)模的數(shù)據(jù)。

有了這些數(shù)據(jù)之后，我們其實(shí)可以從百度大數(shù)據(jù)里面，自動通過語義計(jì)算方式去篩選出來和你的數(shù)據(jù)最相似的一些數(shù)據(jù)，甚至可以篩選出來和你最容易錯的那些數(shù)據(jù)最相似的數(shù)據(jù)。那么這些數(shù)據(jù)再提供給我們的開發(fā)者來做標(biāo)準(zhǔn)，這個(gè)過程它其實(shí)就是變成一種，我把所有最相似、最有用的那一部分?jǐn)?shù)據(jù)給你。當(dāng)然，這個(gè)前提是我們確保這些數(shù)據(jù)不會構(gòu)成對用戶隱私的侵犯。通過這種方式，我們希望可以達(dá)到更好的一個(gè)折中的狀態(tài)。

劉丹：其實(shí)我們京東也在高校有一些合作，包括跟國內(nèi)外大學(xué)建立了一些聯(lián)合實(shí)驗(yàn)室，做一些課題，包括在做一些深度學(xué)習(xí)相關(guān)的一些算法研究。但更重要的是這些模型都來自于一個(gè)學(xué)術(shù)界的一些新的 Paper 或者新觀念，大家都能看得到。

數(shù)據(jù)的問題，這個(gè)安全性很重要，包括京東上有用戶家里面的數(shù)據(jù)，數(shù)據(jù)是相當(dāng)高質(zhì)量的。所以，這對我們來說相當(dāng)重要。那我們在做深度學(xué)習(xí)也好，包括相關(guān)算法提升也好，就是這個(gè)數(shù)據(jù)，到底怎么來提供給你？學(xué)生的話可以來加入我們，這個(gè)數(shù)據(jù)可以整個(gè)開放給他。但是外面的人，我覺得可以通過借用的方式。

這個(gè)我們可以找出一部分相關(guān)的一些數(shù)據(jù)做一些數(shù)據(jù)透明，挖出來他的用戶信息、電話等相關(guān)信息。這樣的話，可以拿來做一些訓(xùn)練，包括做一些標(biāo)準(zhǔn)，未來上線的一個(gè)評測。用戶覺得這個(gè)是沒問題的，現(xiàn)在我們有一個(gè)模算師的平臺就是做這個(gè)工作，里面沉浸了大量的一些區(qū)域面。未來如果有一些對 Chatbot 比較感興趣的可以來做一些探討。

王斌：大家知道人工智能現(xiàn)在是非?；穑? 月 20 日我們國務(wù)院發(fā)布了一個(gè)新一代人工智能的規(guī)劃，這個(gè)事情對我們到底有多大的意義？

周明：第一，我想說的就是，人工智能春天來了，給大家提供了很好的機(jī)會，包括政府支持產(chǎn)業(yè)知識結(jié)構(gòu)，有無窮多的機(jī)會。這也是我們這一次峰會的宗旨，就是提供一個(gè)交流平臺，讓大家能夠茁壯成長。

第二，要有清醒的頭腦，也不是說一窩蜂上什么都見效，然后大家都發(fā)財(cái)。只有有前瞻性、還有像李志飛這樣有商業(yè)頭腦的人，還有機(jī)會超越。

比如說研究上你不能一窩蜂看人都做 Deep Learning，所以你也做這個(gè)，那不會有超越。我總在想，在別人做了某些事情的時(shí)候，能不能就不做，或者就是想，我如果是他，我下一步應(yīng)該做什么？這個(gè)應(yīng)該好好去定位，找一些新的機(jī)會。

我們作為在校的同學(xué)，其實(shí)要做一點(diǎn)有用的研究，要及時(shí)接觸學(xué)術(shù)界的需求，不能就是在書本上來回來去該參數(shù)，以抄文章為主。所以要有更大的抱負(fù)，如果能夠很好施展的話，一直到 2030 年，我認(rèn)為一直是中國一個(gè)很好的機(jī)會，也是大家做學(xué)問、做產(chǎn)業(yè)的一個(gè)機(jī)會。

孫樂：因?yàn)檫@個(gè)也是很多院士花了挺長時(shí)間來呼吁國家來做部署，從咱們的國情來講，就是政府發(fā)文然后去一級級定，還是非常重要的。這個(gè)對咱們來說，是非常好的一個(gè)機(jī)會。然后就是我非常贊同的就是周明老師講的，做研究你還是需要比較冷靜的來看。就是大家都熱起來了以后，大家都做問答，你是不是要去跟風(fēng)做這個(gè)問答？

然后，從這個(gè)研究落地的角度講，就是政府出臺政策的目的是拉動經(jīng)濟(jì)。根本性的目的是因?yàn)槲覀儑耶a(chǎn)業(yè)轉(zhuǎn)型，人工智能是一個(gè)關(guān)鍵，從我們做研究的角度講，只有技術(shù)能找到一個(gè)落地點(diǎn)的話，才會得到更多的指示。

李志飛：從我個(gè)人來說，我是不太喜歡這種資源上傾斜或者怎么樣。其實(shí)任何一項(xiàng)技術(shù)，尤其人工智能這種技術(shù)，它一定有自己的周期規(guī)律。如果說想靠政府支援或者錢去催熟這個(gè)行業(yè)或者一些企業(yè)，我覺得這就是一個(gè)對比性的事情。所以我不希望我們能夠拿到什么國家資助，我從來不這么想。

我覺得對一個(gè)非常商業(yè)化的企業(yè)來說，自己在市場上有競爭力就好了，而不是靠政府補(bǔ)貼、資源傾斜，或者給你什么開綠燈，我覺得這個(gè)就失去了創(chuàng)業(yè)本質(zhì)，當(dāng)然我說這個(gè)話也沒有用。我覺得中國政府最應(yīng)該做的是什么？就是創(chuàng)造一個(gè)公平的創(chuàng)新環(huán)境，首先我覺得大的戰(zhàn)略是非常好的。我是說不應(yīng)該給某些企業(yè)或者幾個(gè)什么院士（我覺得這個(gè)也可以），但是絕大部分錢應(yīng)該是構(gòu)建一個(gè)創(chuàng)新機(jī)制、環(huán)境，然后讓大家公平競爭。

因?yàn)槿绻皇沁@樣的話，那就會有很多投機(jī)者，就天天去跟政府搞關(guān)系，做一些假什么的。其實(shí)過去很多的事情都是這樣的，所以我覺得最終這個(gè)錢，一定要花在創(chuàng)造一個(gè)創(chuàng)新環(huán)境中是最重要的，而不是說，傾斜某一個(gè)行業(yè)或者某一個(gè)企業(yè)，讓很多投機(jī)者去搞政府關(guān)系。

趙世奇：無論是中國還是美國其實(shí)都在人工智能方面出臺了國家級重要的戰(zhàn)略規(guī)劃。我覺得其實(shí)這個(gè)是因?yàn)閲铱吹搅诉@個(gè)方向的重要意義，包括我們說現(xiàn)在很多人現(xiàn)在進(jìn)入到了一個(gè)新時(shí)代，農(nóng)業(yè)社會到工業(yè)社會、信息社會到今天這種智能社會。要我想其實(shí)在智能社會里，取得勝利的國家也許只有中國和美國，其他的國家也許逐漸都會被落到后面，無論是他整個(gè)人才儲備還是數(shù)據(jù)儲備。

有人說，在新的人工智能時(shí)代里面，數(shù)據(jù)是新能源，尤其是在中國，它那么多人口基數(shù)，有這么密集的數(shù)據(jù)。它在人工智能方面具有更多的先機(jī)，所以具有一個(gè)非常好的基礎(chǔ)設(shè)施，還比美國有更好的條件、資源的儲備。這個(gè)是我們很大的一個(gè)機(jī)會，同時(shí)我認(rèn)為有國家推動，客觀講它一定會對這個(gè)人工智能在中國的發(fā)展起到一個(gè)很強(qiáng)的推動作用。

王斌：最后一個(gè)問題，大家覺得語言和智能結(jié)合的下一個(gè)突破、商機(jī)或者是技術(shù)上的突破在哪兒？

林德康：很多人說深度學(xué)習(xí)在自然語言沒有很大的突破，但是我覺得這個(gè)方向還是有可能性的。因?yàn)?，就是從我們公司自己用深度學(xué)習(xí)，然后做語義識別，從這個(gè)就可以看出來這個(gè)深度學(xué)習(xí)還是很神奇的，不過我們做計(jì)算語言的，不去使勁的想這件事兒，有可能將來就變成負(fù)擔(dān)了。

李志飛：我更多從應(yīng)用的角度看一下，在計(jì)算層面，過去 5 年其實(shí)整個(gè)世界發(fā)生了一個(gè)翻天覆地的變化。語義識別等這種偏模式識別得到了特別大的應(yīng)用，無論是創(chuàng)業(yè)公司還是大公司，對這方面投入很大。但是我覺得現(xiàn)在可能到了要把這個(gè)，在過去的移動時(shí)代通過各種傳感器收集到數(shù)據(jù)，把它 Make Sense，就是把自然語言理解以及知識圖譜跟物理世界結(jié)合起來。我覺得無論是從這個(gè)應(yīng)用層面，還是從學(xué)術(shù)層面都是最重要的一個(gè)事情。

今天自然語言交互或者說理解為什么這么差，就是因?yàn)槲覀儗χ庇X、對物理事件沒有建模，我們的知識庫也是非常有限。

未來怎么樣能夠使計(jì)算機(jī)有直覺，對這個(gè)物理世界的知識建模能夠做的更好，然后怎么從文本信息能看到一些東西，但是又有一些推理、直覺去結(jié)合起來，最后可能才能對整個(gè)計(jì)算機(jī)世界有更好的理解。

孫樂：我覺得自然語言的理解經(jīng)過多少年的發(fā)展，實(shí)際上我們到目前還沒有一個(gè)清晰的理論體系，或者叫建模的一個(gè)公式，就好比說我們的目標(biāo)是設(shè)計(jì)飛機(jī)，但實(shí)際上我們沒有空氣動力學(xué)原理。所以我覺得我們未來的突破，可能就在于從語言認(rèn)知機(jī)理中找到那樣一個(gè)“空氣動氣學(xué)原理”。這個(gè)可能會實(shí)現(xiàn)，只有有了這個(gè)以后，我們才能真正在語言和智能方面取得突破。

趙世奇：我認(rèn)為可能有兩個(gè)方面，第一個(gè)方面就是隨著應(yīng)用不斷的拓展，我們其實(shí)會發(fā)現(xiàn)很多新的 NLP 的問題。比如說糾錯，咱們說語音緊接著再接上自然語言，中間的這個(gè)糾錯能力就很難解，包括語音翻譯也是，那這樣的問題怎么解決？其實(shí)這就是一種新的問題，包括說我是不是端到端的語義，還是說我們雖然是級聯(lián)式的，但是中間有什么新的問題和解法，這是一方面的，是我們在應(yīng)用中去找到新的問題點(diǎn)。

還有一個(gè)是很有意思的是，其實(shí)人工智能的發(fā)展，是多領(lǐng)域齊頭并進(jìn)的，語音、圖像、視頻，這是其中第一階段的發(fā)展。那么這些發(fā)展的各個(gè)方向如何去聯(lián)合做一些研究，比如說現(xiàn)在也有叫多模態(tài)的 NLP，那就是說我如何借助圖片信息理解來輔助語言理解。反之亦然，這是一個(gè)聯(lián)合優(yōu)化的過程。

劉丹：我簡單的說一下，我覺得人工智能要做好這個(gè)東西，未來的發(fā)展方向，更重要的是回饋到每一個(gè)的用戶，跟我們生活產(chǎn)生真正的價(jià)值。不管你做多么花哨，不能給用戶帶來價(jià)值，其實(shí)應(yīng)該就是一個(gè)沒用的技術(shù)。包括我們現(xiàn)在做客服機(jī)器人一樣，如果不能給消費(fèi)者解決問題，純粹是做一些無關(guān)的東西，未來發(fā)展也會受到一些很大的瓶頸。

所以，我們在未來怎么去解決人工智能，真正的是給我們在消費(fèi)者用也好，生活中每一個(gè)環(huán)境也好，能夠降低成本，提高效率，給我們整個(gè)生活帶來更多便利，我覺得這是 AI 需要主要考慮的方向。

周明：我認(rèn)為這個(gè)在研究上和應(yīng)用上可能都有回答的機(jī)會。研究上我們認(rèn)為提現(xiàn)一個(gè)“跨”字，就是語言跟多模態(tài)的結(jié)合。比如語言跟視頻還有圖像結(jié)合，我們找自然語言、找圖像的時(shí)候，他們都有自己的局限性。如果誰先走一步，也許就是新的機(jī)會。

第二，神經(jīng)網(wǎng)絡(luò)跟知識結(jié)合，也是符號跟網(wǎng)絡(luò)結(jié)合，李航老師也講過，可能知道我們好好探討。應(yīng)該上的話，其實(shí)我們搞自然語言的應(yīng)用，很多搜索引擎是自然語言的應(yīng)用。像今日頭條那種，新聞聚合是一種應(yīng)用。

那么未來最大的自然語言的機(jī)會在哪兒？有人說 IOT，有人是說語音助手，這些東西真的很難說。但我自己覺得，機(jī)器翻譯有可能會孕育出一個(gè)公司，很多比較大的公司。但是，李志飛和林德康都不一定同意，說機(jī)器翻譯不好掙錢。但我覺得要仁者見仁，智者見智，誰要把機(jī)器翻譯好好醞釀，出來一個(gè)大公司也是極有可能的。

但是我這里想提的一個(gè)是所謂 BI（Business Intelligence）。就是自然語言去放在大數(shù)據(jù)這種環(huán)境來看，它是分析自然語言的這種數(shù)據(jù)，把 BI 做好了之后、把數(shù)據(jù)分析好了之后，放在這個(gè)業(yè)務(wù)里面，比如說法律咨詢、醫(yī)療、教育各個(gè)方面都可以有廣泛的應(yīng)用。但是在那個(gè)應(yīng)用的時(shí)候，別人真不知道這個(gè)背后是自然語言技術(shù)。所以我是覺得把自然語言當(dāng)做一種無形的一種技術(shù)，融入到很多的垂直用戶的痛點(diǎn)問題上，這樣可能是回答一些問題，可能也是產(chǎn)品化的一些機(jī)會。

AI慕課學(xué)院近期推出了《NLP工程師入門實(shí)踐班：基于深度學(xué)習(xí)的自然語言處理》課程!

三大模塊，五大應(yīng)用，海外博士講師手把手教你入門NLP，更有豐富項(xiàng)目經(jīng)驗(yàn)相授；算法+實(shí)踐，搭配典型行業(yè)應(yīng)用；隨到隨學(xué)，專業(yè)社群，講師在線答疑！

課程地址：http://www.mooc.ai/course/427

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群：624413030，與AI同行一起交流成長

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。