丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

導(dǎo)語:四位企業(yè)界的嘉賓為在場(chǎng)觀眾分享了他們?cè)趯?shí)踐中的技術(shù)收獲,并在圓桌討論環(huán)節(jié)暢談自然語言處理的落地難點(diǎn)及應(yīng)用未來。

雷鋒網(wǎng) AI 科技評(píng)論按:2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

CCF-GAIR 2018 延續(xù)前兩屆的頂尖陣容,提供 1 個(gè)主會(huì)場(chǎng)和 11 個(gè)專場(chǎng)(仿生機(jī)器人,機(jī)器人行業(yè)應(yīng)用,計(jì)算機(jī)視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI芯片,IoT,投資人)的豐富平臺(tái),意欲給三界參會(huì)者從產(chǎn)學(xué)研多個(gè)維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會(huì)議內(nèi)容與現(xiàn)場(chǎng)體驗(yàn)。

在第三天上午的自然語言處理專場(chǎng)上,在精彩的大會(huì)報(bào)告及主題演講結(jié)束后,四位企業(yè)界的嘉賓為在場(chǎng)觀眾分享了他們?cè)趯?shí)踐中的技術(shù)收獲,并在圓桌討論環(huán)節(jié)暢談自然語言處理的落地難點(diǎn)及應(yīng)用未來。以下為圓桌環(huán)節(jié)全文整理,雷鋒網(wǎng)做了不改動(dòng)原意的編輯和整理。

奕欣:各位觀眾和嘉賓上午好,我是雷鋒網(wǎng) AI 科技評(píng)論主編奕欣,很榮幸擔(dān)任 NLP 專場(chǎng)圓桌主持人,剛剛我們聆聽了非常多的大會(huì)報(bào)告及主題演講,也對(duì) NLP 在學(xué)術(shù)前沿的認(rèn)識(shí)有了充分而深刻的感知,接下來我們將以更加深入的角度了解自然語言處理的商業(yè)落地,也是本次圓桌論壇的主題。

四位圓桌嘉賓分別是:云孚科技創(chuàng)始人兼 CEO 張文斌;竹間智能 CTO 翁嘉頎;神州泰岳大數(shù)據(jù) VP 張瑞飛;薄言 RSVP.ai 聯(lián)合創(chuàng)始人 CTO 熊琨。

首先邀請(qǐng)每位嘉賓用五分鐘的時(shí)間做一個(gè)技術(shù)分享,首先掌聲有請(qǐng):云孚科技創(chuàng)始人兼 CEO 張文斌先生;云孚科技致力于做全球領(lǐng)先的中文語義技術(shù)服務(wù)商,核心工具包括 NLP 工具包、知識(shí)圖譜、文本挖掘及對(duì)話等。

張文斌:大家好!我是云孚科技 CEO 張文斌,感謝雷鋒網(wǎng)和劉老師的邀請(qǐng),可以在這里跟大家探討云孚科技對(duì) NLP 商業(yè)化上的理解和一些探索工作。

云孚科技是一家初創(chuàng)公司,2017 年 8 月成立,專注于為企業(yè)提供自然語言處理技術(shù)解決方案,創(chuàng)業(yè)團(tuán)隊(duì)來自于 BAT 的 NLP 團(tuán)隊(duì),還有哈工大社會(huì)計(jì)算與信息檢索中心技術(shù)入股我們,中心主任、哈工大人工智能研究院副院長劉挺教授擔(dān)任首席科學(xué)家。目前也積累了包括科大訊飛、百度、騰訊在內(nèi)的合作伙伴。

首先說一下 NLP 的特點(diǎn),NLP 的一大特點(diǎn)是需求非常多,NLP 核心處理語言文字,需求非常廣泛。這是各行各業(yè)的客戶提出的真實(shí)需求,任務(wù)非常多,這是 NLP 的第一大特點(diǎn)。第二大特點(diǎn)是 NLP 難度非常大,這是我們搜集的分分鐘逼死 NLP 從業(yè)者的的 CASE,比如「校長說衣服上除了校徽,別別別的」,計(jì)算機(jī)理解起來會(huì)非常難。再比如這首打油詩,字都一樣,稍微調(diào)換一下順序,表達(dá)的意思就完全不同。中文博大精深,對(duì)從業(yè)者的挑戰(zhàn)非常大。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

接著看商業(yè)化,商業(yè)化的本質(zhì)首先一定要盈利,其次要做到規(guī)模化盈利,這也是創(chuàng)業(yè)公司最本質(zhì)想做的事情。對(duì)于人工智能這一塊的創(chuàng)業(yè)公司要盈利,大方向有兩個(gè),做 toC 直接面對(duì)消費(fèi)者,和做 toB 面對(duì)企業(yè)。云孚科技選擇了 toB,周期相對(duì)可控,比較容易把營收做起來。規(guī)?;钟袃蓚€(gè)方向,創(chuàng)業(yè)公司選擇最多的是深入行業(yè)做垂直行業(yè)的應(yīng)用,這樣可以規(guī)?;鎏囟ㄐ袠I(yè)用戶,而且可以做大訂單,這是一個(gè)方向,也是投資人比較認(rèn)可的方向。我們還看到另外一個(gè)方向,就是做基礎(chǔ)技術(shù)平臺(tái),因?yàn)樗銐蚧A(chǔ),可以面向多個(gè)行業(yè)的客戶提供產(chǎn)品,訂單相對(duì)比較小,但客戶數(shù)更廣,這個(gè)方向也可以做出規(guī)模化盈利的效果。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

結(jié)合我們團(tuán)隊(duì)的特點(diǎn),包括我們對(duì)于產(chǎn)業(yè)的判斷,還有一點(diǎn)就是 NLP 的技術(shù)難度非常大,前面幾位老師從學(xué)術(shù)界作出的效果,因?yàn)槿蝿?wù)非常多,很多指標(biāo)在 70、80% 的階段,整體基礎(chǔ)技術(shù)平臺(tái)的很多任務(wù)沒有達(dá)到理想效果,所以云孚科技先選擇把基礎(chǔ)技術(shù)平臺(tái)做好,創(chuàng)業(yè)公司的核心不是提出新的模型和算法,我們是結(jié)合學(xué)術(shù)界最好的模型和算法,從工程、數(shù)據(jù)角度,把效果優(yōu)化到理想程度。

最終我們的戰(zhàn)略打法總結(jié)起來就是:「先橫后縱、自底向上」——先做橫向的、底層的技術(shù)平臺(tái),再做縱向的、上層的行業(yè)應(yīng)用,這是我們有別于很多 AI 創(chuàng)業(yè)公司的打法。

這是我們目前的技術(shù)產(chǎn)品架構(gòu),最底層是云孚自然語言處理平臺(tái),中間一層是文本挖掘平臺(tái),最上面一層是企業(yè)智能信息處理平臺(tái),為企業(yè)提供各種智能化信息處理解決方案。

NLP 是一個(gè)非常有意思的領(lǐng)域,難度很大,價(jià)值也非常大,云孚科技探索之路上狂奔,也歡迎有意愿的朋友和我們一起探索 NLP 領(lǐng)域無限的可能性。謝謝大家!

奕欣:非常感謝張先生的精彩發(fā)言。接下來有請(qǐng)竹間智能 CTO 翁嘉頎先生,翁嘉頎先生負(fù)責(zé)竹間智能在 AI 領(lǐng)域產(chǎn)品研發(fā)與技術(shù)規(guī)劃,涵概對(duì)話機(jī)器人、計(jì)算機(jī)視覺、金融科技等領(lǐng)域,掌聲有請(qǐng)。

翁嘉頎:各位好,我是翁嘉頎,我們公司主要是做情感計(jì)算和文本分析、自然語義理解,情感計(jì)算。跟別人不同的地方是我們不只做文本情感,還做語音情緒和表情。比如高考剛結(jié)束,如果你看到一段文字「我高考考了 500 分」,這個(gè)時(shí)候你應(yīng)該恭喜我還是安慰我?其實(shí)你不知道,這就要看我講話的語氣。

我們公司的創(chuàng)辦人 Kenny 之前是微軟工程院副院長,負(fù)責(zé) Bing、小冰、小娜,我之前是做搜索引擎的,公司很多同事也是做搜索引擎出身的,你會(huì)發(fā)現(xiàn)做人工智能的很多人都是從搜索引擎公司出來的。

文字情緒有 22 種,說 22 種有點(diǎn)多,至少負(fù)面情緒,反感、憤怒、悲傷、害怕要分開,我害怕、我傷心、我憤怒雖然都是負(fù)面情緒,但人機(jī)交互的反饋應(yīng)該不一樣。人臉表情我們做了 9 種,語音情緒做了 4 種,然后把它合在一起。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

來看一個(gè)例子,這是兩年前最有名的一段視頻,左上角是她的人臉表情,左邊的中間是語音情緒,左下角是文字情緒,傅園慧說「在澳洲訓(xùn)練非常辛苦,我已經(jīng)快死了,簡直是生不如死」從文字上來可能是憤怒的?!腹碇牢医?jīng)歷了什么,我太累了」,文字上是辛苦的,但是人臉表情、語音情緒不是,所以總結(jié)起來還是開心的。這個(gè)視頻不管看多少次你都會(huì)非常開心。

我們目前主要在金融、電商、IOT 領(lǐng)域、運(yùn)營商等領(lǐng)域落地,公司成立近三年,除了第一年做技術(shù)的打磨,后面都是在做客戶的落地項(xiàng)目,我想分享的是目前人工智能必須從單個(gè)到單獨(dú)的領(lǐng)域去突破,去那個(gè)領(lǐng)域先收集語料,以及到底要解決什么問題,針對(duì)這一類問題我能解決哪些?比如訂酒店,今天我要訂酒店,我可能會(huì)說「我要訂萬豪酒店旁邊的快捷酒店」,如果抓關(guān)鍵詞的話,會(huì)以為我要訂萬豪酒店。再比如訂餐,我大概有七八個(gè)大人再加兩個(gè)小孩,七八個(gè)大人是七十八個(gè)人還是八個(gè)人?再比如說「幾點(diǎn)」?六、七點(diǎn),不不不,改成八點(diǎn)好了。那么到底是幾點(diǎn)?

在我們的認(rèn)知中,希望未來每個(gè)人有自己的機(jī)器人,你的機(jī)器人能理解你,記得你,我跟手環(huán)或機(jī)器人說「幫我點(diǎn)個(gè)外賣吧,我肚子餓了」,它能記得我喜歡吃什么、不喜歡吃什么,而且它知道我昨天吃過什么、前天吃過什么,不要點(diǎn)重復(fù)的東西。每個(gè)企業(yè)都應(yīng)該有點(diǎn)餐機(jī)器人,可以做智能客服的回答。未來我們還可以跟機(jī)器人交流,比如我跟手環(huán)說「幫我點(diǎn)個(gè)巨無霸吧」,它知道這是麥當(dāng)勞的產(chǎn)品,會(huì)找到麥當(dāng)勞的機(jī)器人,兩個(gè)機(jī)器人對(duì)話,幫我搞定。

奕欣:非常感謝翁嘉頎先生的發(fā)言。接下來有請(qǐng)神州泰岳大數(shù)據(jù) VP 張瑞飛先生,張瑞飛先生具有十年以上大數(shù)據(jù)及人工智能從業(yè)經(jīng)驗(yàn),他會(huì)為我們帶來怎樣的技術(shù)分享呢?有請(qǐng)張瑞飛先生。

張瑞飛:我今天跟大家匯報(bào)一下神州泰岳做自然語言處理商業(yè)落地的考慮。講到商業(yè)落地,大家可能會(huì)講一個(gè)問題,就是我們要解決幾個(gè)矛盾,經(jīng)過這兩年的市場(chǎng)訓(xùn)練和這次大會(huì)的培訓(xùn),大家都知道人工智能現(xiàn)在處于初級(jí)階段,尤其在認(rèn)知科學(xué)領(lǐng)域。在初級(jí)階段要落地,就意味著你要管客戶收錢,我想這是第一個(gè)矛盾。第二個(gè)矛盾是我們要解決成本和實(shí)際達(dá)成成效之間的平衡,理論上講,只要你投入足夠多的成本,人工智能的效果就會(huì)更好一些,但是它又有最佳值,我們要找到最佳值在哪兒。第三是我們要解決在算法工程和基礎(chǔ)算法之間的選擇,我們?cè)谒惴üこ讨幸鉀Q的問題和我們?cè)诨A(chǔ)算法中進(jìn)行的優(yōu)化研究結(jié)合起來。

以我們?cè)诠舶踩I(lǐng)域的例子跟大家講一下,我想在座各位都非常同意這一點(diǎn),就是你在解決算法、數(shù)據(jù)和算力這三個(gè)數(shù)據(jù)時(shí),肯定先搞定數(shù)據(jù),包括騰訊的鐘黎先生和剛才各位嘉賓所說的,我們做內(nèi)容之前要做預(yù)處理,先從接警事件開始,標(biāo)注橫行 400 萬份樣本,在此基礎(chǔ)上做領(lǐng)域?qū)I(yè)詞向量,領(lǐng)域?qū)I(yè)詞向量可以預(yù)提取和計(jì)算體征,我們可以把公安的文本覆蓋率達(dá)到 99% 的泛化能力,這是第一步。

第二步,做了這個(gè)內(nèi)容還不夠,這個(gè)內(nèi)容只做了工程化的基礎(chǔ),它是所有算法的基礎(chǔ)和基石,使得算法可以適用于這個(gè)領(lǐng)域,但它遠(yuǎn)遠(yuǎn)不夠,比如地址的問題,經(jīng)過地址抽取,在地址之上進(jìn)行更多的二次加工,我們搜集整理了大概 110 個(gè)維度下 190 萬個(gè)地址,進(jìn)行地址歸因化、地址地配、跟公安的融合等等,這是工程化的第二步,也就是怎樣在成本成效中有所取舍。除了地址以外,還有作案手段、嫌疑人、公司名稱、人名等,這方面都需要二次加工。

第三,我們要考慮遷移學(xué)習(xí)的內(nèi)容,以前訓(xùn)練不同地域的公安同一警種內(nèi)容時(shí),每個(gè)案例要提供 5000 個(gè)樣本,通過遷移學(xué)習(xí)迭代,可以不斷減少樣本數(shù)量,從 5000 個(gè)減少到 100 個(gè)樣本進(jìn)行模型工程泛化工作,最后我相信這個(gè)數(shù)量會(huì)降到十位數(shù)或個(gè)位數(shù)。

有了這些還不夠,我們可以用深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)造雙向 LSTM 管,配合 CRF 進(jìn)行要素提取或語義結(jié)構(gòu)提取訓(xùn)練。但還是不夠,它的難度在于我們?cè)趺窗岩恍┧惴ㄗ鰞?yōu)化和改進(jìn),其中一個(gè)可以考慮的方向就是把人類已有的知識(shí)結(jié)構(gòu)和語言結(jié)構(gòu)和深入學(xué)習(xí)進(jìn)行融合,通過融合,能有 5%-15% 的準(zhǔn)確率提升,這一步很關(guān)鍵,這一步?jīng)Q定了你的算法在落地時(shí)是可用的還是不可用的。

這里舉了一個(gè)例子,但遠(yuǎn)遠(yuǎn)不限于這個(gè)例子,我們講融合時(shí)通常有兩種方法,一種方法是在算法工程上融合,這里舉的是算法工程上融合的例子,我們把概念單元、把 3192 個(gè)句類、語境單元和記憶標(biāo)好,實(shí)現(xiàn)有限和無限之間的哲學(xué)關(guān)系,概念是無限的,但概念單元是有限的,語句是無限的,但句類是有限的,語境是無限的,但語境單元是有限的。我們把已有的結(jié)構(gòu)化知識(shí)或者圖的知識(shí)結(jié)構(gòu),就是用人腦可以分析的知識(shí)結(jié)構(gòu)直接融入到神經(jīng)網(wǎng)絡(luò)中,我們?cè)谒惴ㄖ邪阉m配和協(xié)調(diào)起來,這樣算法落地時(shí)才準(zhǔn),準(zhǔn)是你能使用的非常高的影響力,它也是能要到錢的基礎(chǔ)。

有了這些還不夠,我們還需要結(jié)合大數(shù)據(jù)技術(shù)、圖譜技術(shù)、流程技術(shù),但我要提醒大家的是不是有了一個(gè)工程團(tuán)隊(duì)就結(jié)合了大數(shù)據(jù),我們需要看做大數(shù)據(jù)的什么、做人工智能的什么、做應(yīng)用的什么,把它結(jié)合起來。

我們跟中文信息學(xué)會(huì)進(jìn)行合作,也跟北京師范大學(xué)開源了一套詞的預(yù)向量集,一共 50G 的文本量,是目前全球最全的文本預(yù)向量集。我們也跟中文信息協(xié)會(huì)建立了生態(tài)合作聯(lián)盟,我們需要合作,需要在合作過程中共同成長,我們也發(fā)布了中文深度語義平臺(tái),希望大家聯(lián)合起來,把 NLP 的落地真正走向產(chǎn)業(yè)化和實(shí)用化的階段。謝謝各位!

奕欣:感謝張瑞飛先生的演講。接下來有請(qǐng)薄言 RSVP.ai 聯(lián)合創(chuàng)始人 CTO 熊琨,熊琨先生畢業(yè)于清華大學(xué)計(jì)算機(jī)系,后就讀于滑鐵盧大學(xué),他十多年來專注于深度語義解析和人機(jī)對(duì)話研究。

熊琨:我們公司叫薄言,英文叫 RSVP.ai,RSVP 是法文縮寫,表達(dá)的含義是希望得到你的回復(fù),我們公司的初衷就是希望讓機(jī)器了解語言,自動(dòng)幫人做一些關(guān)于語言的事情。

我們是一家發(fā)展機(jī)器學(xué)習(xí)技術(shù),提供自然語言深度解析服務(wù)的公司,為 B 端、為合作企業(yè)進(jìn)行加速。公司 2013 年在加拿大成立,另外一位聯(lián)合創(chuàng)始人是加拿大滑鐵盧的教授,也是皇家科學(xué)院院士,他 2012 年獲得過加拿大科學(xué)最高獎(jiǎng) KillamPrize,這個(gè)獎(jiǎng)大家可能不熟悉。但是大家所熟知的 GefforyHinton 在 2014 年獲得該獎(jiǎng),李明老師是在 2012 年。薄言 RSVP 得到了清華大學(xué)計(jì)算機(jī)系的支持,感謝朱曉燕教授和系主任孫茂松教授,早期我們的人才儲(chǔ)備也是通過清華和滑鐵盧的交換項(xiàng)目。

我們?cè)缙谝恢弊鲇⑽难芯?,近年轉(zhuǎn)入中國市場(chǎng),團(tuán)隊(duì)目前主要在加拿大和中國,李老師畢業(yè)于康奈爾大學(xué),其他團(tuán)隊(duì)成員主要是來自清華、滑鐵盧大學(xué),北京大學(xué),華中科大以及谷歌。

簡單介紹一下我們現(xiàn)在做的事情,一是任務(wù)型 NLU,現(xiàn)在提供的服務(wù)也是這樣的服務(wù),這是在智能家庭環(huán)境下做電影查詢解析,右圖是在小米智能電視上做的例子。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

這一頁 PPT 本來是想說更多,我們公司的研究員會(huì)花很多精力在基礎(chǔ)深度學(xué)習(xí)方面的研究,主要在于端到端怎么引入更多的知識(shí),解析時(shí)我們希望深度學(xué)習(xí)網(wǎng)絡(luò)不僅僅給出概率分布,還希望給出圖狀結(jié)構(gòu),能夠解決文法表達(dá)的問題,大家都知道,上下文無關(guān)文法在計(jì)算機(jī)計(jì)算中還有很多是理論上難以計(jì)算的問題,所以我們需要在編譯算法上下工夫,目前已經(jīng)有了一些進(jìn)展,還在繼續(xù)研究中。我們也花了很多工夫,讓通用模型更大語料幫助我們?cè)诖怪鳖I(lǐng)域得到更好的效果,任務(wù)型自然語言解析基本上是做這個(gè)事情。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

對(duì)于對(duì)話型的理解其實(shí)是更難的問題,因?yàn)槿藗冊(cè)趯?duì)話中往往會(huì)省略一些大家知道的信息或者以前說過的信息,我們現(xiàn)在用深入學(xué)習(xí)端到端網(wǎng)絡(luò)做這件事情,很多時(shí)候可以很容易的跟一些傳統(tǒng) NLU 系統(tǒng)做對(duì)接,這些 NLU 單元不用太關(guān)注上下文的問題,比如這個(gè)例子中,說的主體是九寨溝以及人多不多的問題,我們可以對(duì)單句進(jìn)行補(bǔ)全。這個(gè)端到端的網(wǎng)絡(luò)設(shè)計(jì)了一種類似于機(jī)器閱讀理解的結(jié)構(gòu),論文剛剛投出去。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

薄言也可以作古詩,我們的機(jī)器作詩沒有像孫老師從文學(xué)角度出發(fā),主要是在考慮各類生成網(wǎng)絡(luò)在中文上的生成效果,例如:GAN,RNN 和 VAE,論文發(fā)表在 IJCAI 2018, 這個(gè)網(wǎng)絡(luò)可以用更少的參數(shù)和知識(shí)讓它對(duì)一些主題進(jìn)行生成,并且也可以做藏頭、七言律詩、五言律詩,我們有一個(gè)類似于「九歌」的系統(tǒng)叫「暖暖」,大家也可以在微信上關(guān)注薄言豆豆,體驗(yàn)作詩的效果。

我們現(xiàn)在的使命還是極大程度的降低人工標(biāo)注,不光模型算法,包括交互界面上,現(xiàn)在的自然語言平臺(tái)可以讓用戶定義 NLU,公司未來也會(huì)花超過一半的精力繼續(xù)放在基礎(chǔ)機(jī)器理解和自然語言框架上,未來的目標(biāo)是想構(gòu)建多層理解的構(gòu)架模型。

感謝大家,期待接下來的討論。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

奕欣:今天大家將會(huì)聊一來自然語言處理商業(yè)應(yīng)用上的各種議題,近年來產(chǎn)業(yè)界和學(xué)術(shù)界的交融越來越頻繁,希望能跨越雙方的溝通橋梁。

2018 年對(duì)于自然語言處理技術(shù)來說是產(chǎn)生巨大飛躍的一年,比如說阿里、微軟、哈工大、訊飛聯(lián)合實(shí)驗(yàn)室相繼突破了人類水平,NLP 技術(shù)發(fā)展觸及新里程碑,人們對(duì)此有新的期待和信心。在第一天主會(huì)場(chǎng)張鈸院士的報(bào)告中,張鈸院士在演講中展示了一張表,橫軸代表領(lǐng)域的寬窄,從單領(lǐng)域、多領(lǐng)域到開放領(lǐng)域,縱軸表示信息的確定性和完全性,從確定到不確定領(lǐng)域,從完全到不完全信息,其中自然語言處理正位于最難的位置。接下來有請(qǐng)四位圓桌嘉賓跟我們一起暢聊,自然語言處理到底有哪些落地的技術(shù)難點(diǎn)和應(yīng)用難點(diǎn),有請(qǐng)各位圓桌嘉賓上臺(tái)。

第一個(gè)問題,現(xiàn)在語音識(shí)別、人臉識(shí)別研究領(lǐng)域相對(duì)落地比較快,NLP 目前在落地上技術(shù)還是不夠完善,請(qǐng)問各位嘉賓,目前在技術(shù)上還有哪些鴻溝需要跨越?

張文斌:NLP 技術(shù)目前處于相對(duì)不太成熟的階段,也是因?yàn)樗娜蝿?wù)非常多且復(fù)雜。分詞相對(duì)比較成熟,測(cè)試語料上準(zhǔn)確率可以做到 97% 以上,就算分詞這么成熟的技術(shù),落到特定行業(yè),面對(duì)一些新詞,效果還是不足夠理想,還需要花很多精力去做針對(duì)特定領(lǐng)域去做優(yōu)化。從分詞往上,很多基礎(chǔ)的 NLP 任務(wù)都有很大的優(yōu)化空間,所以這也是云孚科技目前發(fā)力的方向,先把 NLP 基礎(chǔ)技術(shù)平臺(tái)做好做扎實(shí),再在上面搭建上層的應(yīng)用。

翁嘉頎:目前 NLP 在短文本、短句 15 個(gè)字以內(nèi),意圖理解、意思理解可能沒有什么問題,長文本目前還不太行,舉個(gè)例子,我們?cè)陔娚逃龅降摹缸蛱熨I了一支口紅,我媽媽看了也很喜歡這個(gè)顏色,既然還沒有發(fā)貨,能不能多買一支」?四個(gè)子句,這句話的意圖到底是什么?中間有問號(hào)、有逗號(hào),可能連人都不一定搞得懂,更何況機(jī)器。這句話的意思其實(shí)是「我要修改訂單」,這一塊的攻克是很長遠(yuǎn)的目標(biāo)。

張瑞飛:自然語言處理屬于認(rèn)知智能范疇,所以自然語言處理的終極目標(biāo)是理解人類的思維和想法,在這個(gè)過程中,我們需要拿捏尺度,這個(gè)尺度即把機(jī)器智能和人類智慧融合在一起,而不是用機(jī)器智能取代人類智慧。

在領(lǐng)域分析,我們現(xiàn)在比較關(guān)注的是怎么把視覺中已經(jīng)取得的技術(shù),比如 DCN 技術(shù)應(yīng)用在文本中。給大家舉一個(gè)直觀的例子,現(xiàn)在網(wǎng)上的輿論控制,比如涉黃、涉毒、涉恐信息用人眼能馬上看起來,但用機(jī)器識(shí)別沒有終極解,它總能找出一些異常來,這方面有一些思路和算法上的改進(jìn),可以處理問題。

奕欣:視覺和自然語言處理的結(jié)合也是現(xiàn)在比較火的一塊。

熊琨:我們?cè)谏虡I(yè)化上還是比較初步的,更多的還是從研究的角度考慮這件事情,因?yàn)槲覀円呀?jīng)開始做商業(yè)化,比較困難,一方面是比較通用的問題,目前自然語言處理的問題是如果我把算法做得特別深,往往有普適性的問題,如果做平臺(tái),往往做深入就會(huì)有困難,這是第一點(diǎn)。第二點(diǎn),拿語義相似度短文本來講,我們遇到的商業(yè)化問題,比如最早能在對(duì)話或問答領(lǐng)域達(dá)到比較好的效果,接下來電商領(lǐng)域或法律領(lǐng)域的數(shù)據(jù)集上來,它們的訓(xùn)練語量沒有那么多,但又有各自領(lǐng)域自己的知識(shí)和特點(diǎn),這個(gè)時(shí)候通用的數(shù)據(jù)集怎么達(dá)到更好的效果?這是我們想克服的挑戰(zhàn)。第三點(diǎn)是在商業(yè)化中,自然語言處理跟 CV 領(lǐng)域還有一個(gè)差別,大家很多時(shí)候是用大量的 LSTM、Model 等,哪怕 Attention 才是你真正需要的東西,但實(shí)際上它還是時(shí)序模型,如果我把它放到線上系統(tǒng),時(shí)延是有問題的,而且成本非常高,哪怕谷歌做郵件回復(fù),他們自己都認(rèn)為用 LSTM 是比較貴的,所以自然語言處理商業(yè)化也要考慮成本問題。

奕欣:熊老師的回答引出了第二個(gè)問題,結(jié)合各位公司的實(shí)際業(yè)務(wù),目前有哪些需要重點(diǎn)解決的問題?

熊琨:我們現(xiàn)在比較關(guān)注的問題,也是相對(duì)比較簡單的問題,即短文本語義相似度,剛才騰訊的研究員(鐘黎)也講到了,首先在學(xué)術(shù)領(lǐng)域會(huì)做很多研究,關(guān)于 Q 和 Q 的相似度,也有 Q 和 A 的相似度,其實(shí)很多時(shí)候是通用的。其他客服領(lǐng)域遇到的數(shù)據(jù),比如手機(jī)、電腦領(lǐng)域,我買一部華為手機(jī),發(fā)現(xiàn)屏幕不亮了,客服人員經(jīng)常給出的正確答案是「你重啟一下」,實(shí)際上在語義上這兩句話不是完全相等的。此外,我們?cè)诜椒ㄉ线€有一個(gè)維度的區(qū)別,現(xiàn)在很多服務(wù)是基于搜索的技術(shù),現(xiàn)在業(yè)內(nèi)也有一些新的評(píng)價(jià)方式,即在平行文本做評(píng)價(jià),兩種評(píng)價(jià)都達(dá)到很好的效果,但是如果做交叉,總會(huì)有損失,這個(gè)問題對(duì)我們來講是比較棘手的問題。

張瑞飛:我們現(xiàn)在的核心要解決標(biāo)注好的數(shù)據(jù),用戶使用過程中反饋的數(shù)據(jù),因?yàn)樽鋈斯ぶ悄苊撾x不了對(duì)業(yè)務(wù)的理解,比如公安行業(yè),不能只是做信息化的人,沒有業(yè)務(wù)反饋,這個(gè)過程中,人工智能想在領(lǐng)域化內(nèi)取得有效、出色的應(yīng)用,就要把這個(gè)問題首先解決掉,這是我們的核心問題。其他問題還有很多,比如跟其他系統(tǒng)的關(guān)聯(lián),比如怎么做好更好的搜索引擎,怎么做出更快的圖譜來,怎么把百億級(jí)計(jì)算壓縮到毫秒級(jí),這些都有要求,但第一要解決的就是數(shù)據(jù)問題。

奕欣:剛剛翁嘉頎先生在演講中也提到了機(jī)器人的內(nèi)容,能否結(jié)合這一塊跟我們分享一下?

翁嘉頎:如何做好對(duì)話控制,如何限制用戶講話方式,這真的是一個(gè)技巧,因?yàn)橛脩魜y講一通,你是沒有辦法理解的。舉個(gè)例子,剛剛講到法律,我們做過政務(wù)機(jī)器人,其中有離婚場(chǎng)景,您要離婚?有沒有共同財(cái)產(chǎn)?這句話表面上看起來就是 YESorNO,但用戶不是這樣回答的,用戶會(huì)說十年前我們共同買了一套房子,本來是一個(gè)人名下,后來轉(zhuǎn)到兩個(gè)人名下。類似這樣的問題,客戶亂回答,機(jī)器人根本沒有辦理繼續(xù)下去,如何做好對(duì)話控制是目前可以落地的一個(gè)方向。

張文斌:我們目前更關(guān)注稍微底層一些的,包括信息抽取、知識(shí)圖譜相關(guān)的東西,我們有很多非結(jié)構(gòu)化文本存在,怎么在這上面把他們想要的結(jié)構(gòu)化信息抽取出來,抽取完再構(gòu)建這個(gè)行業(yè)的知識(shí)圖譜。做的過程中有各行各業(yè)的需求過來,如果以傳統(tǒng)的機(jī)器學(xué)習(xí)或人工智能的方法做,需要大量的標(biāo)注語料,這個(gè)成本往往非常高,怎么樣在沒有標(biāo)注語料或很少的標(biāo)注語料的情況下就能把這一塊做起來?我們也積累了一些經(jīng)驗(yàn),一般可以先用已有的通用系統(tǒng)結(jié)合基于規(guī)則的方法先做一版系統(tǒng)出來,這樣可以先跑一個(gè)初步結(jié)果,從中挑一部分比較嚴(yán)重的 badcase 出來,人工標(biāo)注語料,再重新訓(xùn)練模型,如此反復(fù)迭代。最終可以花比較小的人力標(biāo)注成本把系統(tǒng)遷移到其他領(lǐng)域。當(dāng)然,剛才說的這個(gè)過程還比較理想,怎么樣用盡可能少的標(biāo)注語料,可以快速遷移領(lǐng)域?這是我們實(shí)際工作中碰到的一個(gè)非常實(shí)際的問題。

奕欣:非常感謝幾位老師的分享,既然今天是產(chǎn)學(xué)結(jié)合的會(huì)議,我也想請(qǐng)教一下各位老師,目前深度學(xué)習(xí)對(duì) NLP 的影響還是挺大的,像雷鋒網(wǎng)參加 ACL 這樣的學(xué)術(shù)會(huì)議,能感覺到每篇論文都有接觸深度學(xué)習(xí)的方面,請(qǐng)問學(xué)術(shù)界的前沿研究對(duì)于企業(yè)的產(chǎn)業(yè)化落地能得到哪些借鑒和思考?

翁嘉頎:我們目前的實(shí)驗(yàn)結(jié)果是沒有一個(gè)單一的算法能夠解決好問題,不管是用深度學(xué)習(xí)的哪一種算法,或者是哪一個(gè)規(guī)則,或者向量,或者模板的方式,比較有辦法做的是拿各式各樣新的東西,目前基本上所有 Paper 上提到的算法我們都試過,可能要看四、五十篇 Paper,從里面融合出一個(gè)方法,所以每一個(gè)算法,每一個(gè) Paper 都有它可取的地方,比如其中四個(gè)算法告訴我他要退貨,一個(gè)算法告訴我他要換貨,我會(huì)用投票的方式,比較有機(jī)會(huì)真正落地解決問題,因?yàn)樗惴ㄓ腥觞c(diǎn),用多個(gè)算法去做,能互相彌補(bǔ)缺陷。

張瑞飛:首先我們不能評(píng)價(jià)哪個(gè)算法好與壞,因?yàn)樗惴ㄒ催m用場(chǎng)地,適用你的應(yīng)用場(chǎng)景的方法就是最好的方法。目前的深度學(xué)習(xí)算法是向人腦致敬的過程,典型的有 CNN,這個(gè)過程中我們可以對(duì)這個(gè)算法做適度優(yōu)化,優(yōu)化方向是把人類取得的知識(shí)結(jié)構(gòu)跟算法做有機(jī)融合,這是我們希望專注下去的方向。

張文斌:我們?cè)谶@一塊的經(jīng)驗(yàn)比較豐富,公司跟哈工大社會(huì)計(jì)算與信息檢索中心中心是非常緊密的合伙關(guān)系,我們的主要工作就是把學(xué)術(shù)界的 NLP 研究成果真正落地產(chǎn)業(yè)化。在這個(gè)過程中,我們的經(jīng)驗(yàn)體會(huì)是這樣的,學(xué)術(shù)界的訴求跟工業(yè)界還是不一樣,學(xué)術(shù)界追求理論上、模型上的創(chuàng)新,如果有重復(fù)了就需要構(gòu)思下一個(gè)新的模型。而創(chuàng)業(yè)公司是把他們探索出來的模型拿過來試,我們的核心是效果導(dǎo)向?;谶@一思路,我們內(nèi)部也搭建了一套統(tǒng)一的基準(zhǔn)平臺(tái),先給算法和數(shù)據(jù)分別定義好統(tǒng)一的接口,然后就能很方便地替換成算法或模型以及數(shù)據(jù)進(jìn)行效果測(cè)試,這樣就可以快速嘗試新的算法模型,到底在特定任務(wù)上效果怎么樣,純粹根據(jù)效果來挑選最終適合這個(gè)任務(wù)的整體模型方案。其次,真正用這些算法做預(yù)測(cè)時(shí),我們還得考慮它的性能,在正式場(chǎng)合,包括它需要的硬件條件是否符合業(yè)務(wù)需求,這也是我們落地時(shí)要考慮的因素,有的算法雖然非常高大上,可能高出 0.1 或 0.2 個(gè)點(diǎn),但它的速度慢了很多,對(duì)硬件要求特別高,我們就會(huì)有所取舍,采用更加實(shí)用的算法。

熊琨:非常同意文斌說的第一點(diǎn),現(xiàn)在很多論文充斥著大量深度學(xué)習(xí)的文章,但都是基于有限的假設(shè),主要是會(huì)議會(huì)發(fā)布一些黃金數(shù)據(jù)集,但這些數(shù)據(jù)集往往跟我們面臨的問題是不一樣的,所以非常重要的是公司內(nèi)部要有自己的測(cè)試集和標(biāo)準(zhǔn),對(duì)于新的方法能夠快速適應(yīng)和嘗試。現(xiàn)在對(duì)于「試」這件事情是非常重要的,原來我們要求研究人員一周之內(nèi)把一篇 Paper 寫出來并且測(cè)試,現(xiàn)在可能縮短到 2-3 天了。我的看法是不見得有最好的算法,主要是最合適的,對(duì)我來講,很多時(shí)候是多層解決方案,甚至還要考慮關(guān)鍵詞的傳統(tǒng)方法結(jié)合自然語言算法可能效果是比較好的。公司內(nèi)部也會(huì)分開,剛才說的這一部分主要是結(jié)果導(dǎo)向,另一方面我們的研究團(tuán)隊(duì),也在探索一些更新的網(wǎng)絡(luò)以及學(xué)習(xí)方式,思考機(jī)器推理,或者其他類人腦活動(dòng)的機(jī)器學(xué)習(xí)方式。

奕欣:非常感謝熊琨老師的分享。接下來是最后一個(gè)問題,我發(fā)現(xiàn)各位嘉賓的公司名字都起得非常有意思,比如薄言、竹間、神州泰岳、云孚科技,它們想必都包含著創(chuàng)始人對(duì)于自然語言處理的美好期許,最后請(qǐng)各位嘉賓結(jié)合自己公司的名字展望一下自然語言處理技術(shù)的未來。

張瑞飛:我們希望我們?cè)谥形淖匀徽Z言處理上做出獨(dú)特性,自成一派,做出為國家爭光的東西,為自然語言處理落地。神州泰岳是在神州大地上的一個(gè)企業(yè),我們也希望借著「神州泰岳」這個(gè)名字的吉言把這一塊工作做好。

奕欣:也希望神州泰岳越辦越好,成為中國領(lǐng)先的 NLP 企業(yè)。接下來請(qǐng)?jiān)奇诳萍嫉膹埼谋笙壬鷣矸窒硐隆?/p>

張文斌:這是一個(gè)考驗(yàn)創(chuàng)始人自然語言處理能力的題目,「云孚科技」是我自己起的,云是現(xiàn)在比較火的概念,我們的初衷是自然語言處理能力的門檻非常高,尤其是對(duì)于很多中小企業(yè)或傳統(tǒng)企業(yè),他沒有很好的 NLP 研發(fā)團(tuán)隊(duì),我們希望把我們頂級(jí)的 NLP 技術(shù)能力封裝好,最終以云的形式普惠給所有有需求的企業(yè)?!告凇故切抛u(yù)的意思,做人做事一定要靠譜,講信譽(yù),我們做的產(chǎn)品一定要可靠,給客戶帶來實(shí)際價(jià)值,所以叫云孚科技。

奕欣:是一個(gè)既仰望星空又腳踏實(shí)地的名字,接下來請(qǐng)熊老師展望一下。

熊琨:剛才我講了英文,中文可以再說一點(diǎn),薄言這個(gè)名字起得比較草率,團(tuán)隊(duì)幾個(gè)人覺得需要有中文的名字,因?yàn)?RSVP 實(shí)在太難讀了,「薄言」來自于《詩經(jīng)》,采采芣苡,薄言采之,「薄言」在這句話中沒有具體的含義,是一個(gè)語氣詞,我們想表達(dá)的含義是以謙遜的態(tài)度處理語言,我們認(rèn)為自然語言領(lǐng)域還在冬天之內(nèi),不管是技術(shù)落地還是商業(yè)化需求都沒有真的出現(xiàn),所以我們需要以謙遜、負(fù)責(zé)任的態(tài)度做科研,需要用更長的時(shí)間、更大的努力,特別是在加拿大這個(gè)苦寒的地方渡過寒冷的冬天,未來能積累出更強(qiáng)的技術(shù),能讓機(jī)器更懂我們的語言。

奕欣:最后有請(qǐng)竹間智能的翁嘉頎先生。

翁嘉頎:我們公司的英文名是「Emotibot」,所以公司一成立就是奔著情感機(jī)器去的,所以我們不只做文本,連語音、圖像一起做,花了大量的人力,所有數(shù)據(jù)都是自己標(biāo)注,光人臉就標(biāo)注了 200 多萬張照片,每張照片是三個(gè)人標(biāo),三個(gè)人都說是高興,就是高興,三個(gè)人都說是悲傷,就是悲傷,不然就要找心理學(xué)家做最后判斷。文本更不用說了,不知道花了多少時(shí)間處理這些數(shù)據(jù),我們認(rèn)為情感計(jì)算會(huì)是未來的一個(gè)潮流,希望大家一起努力,把自然語言慢慢往前推,因?yàn)檫@一塊目前不像語音和圖像發(fā)展那么快速。

奕欣:非常感謝各位圓桌嘉賓在今天的 NLP 專場(chǎng)為我們帶來的精彩分享,也非常感謝大家來到這里。

主持人:非常感謝以上幾位嘉賓的精彩分享,本屆大會(huì)延續(xù)了往屆大會(huì)的盛況,匯聚行業(yè)精英大咖,圍繞行業(yè)前沿話題,探討未來發(fā)展方向。

最后,我謹(jǐn)代表活動(dòng)主辦方對(duì)到場(chǎng)的各位來賓最衷心的感謝。謝謝你們!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

探討自然語言處理的商業(yè)落地:從基礎(chǔ)平臺(tái)到數(shù)據(jù)算法 | CCF-GAIR 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說