1
編者注:戴帥湘——前百度主任架構師,曾長期擔任百度Query理解方向負責人,是自然語言理解方面的技術專家,曾榮獲第一個也是迄今為止唯一一個以NLP技術為核心的百度最高獎。2010年提出“Query改寫模型”給百度搜索引擎技術帶來了跨時代的飛躍,使得搜索相關性和廣告收入均大幅提升。該模型比學術界同類模型《Query Rewriting Using Monolingual Statistical Machine Translation》的提出還要早將近1年。此模型迄今為止仍廣泛應用于百度所有搜索產(chǎn)品線 。申請了自然語言處理,語義搜索,自動問題求解等領域內20多項專利技術。
本文是戴帥湘在公開課Human-like learning 在對話機器人中的魔性運用中的讀者問答內容整理。
你的意思應該指的是數(shù)據(jù)的準確性,這個暫時還是通過線下的測評,達到一定的準確率后才參與線上運算,這個和大多公司采用的方法一樣。
只是我們后面會在對話的環(huán)節(jié)允許用戶通過對話的方式幫助修正,就像我說了某個東西,聽著覺得不對,可能會給我一個反饋。
對于用戶需求、用戶意圖的理解和分析,對query做一個簡化、分析。請問一下有沒有一些開源工具或者算法可以推薦一下。例如以下這些:
北京附近哪里好玩呀 -> 北京的景點;location : beijing, category : travel。
上海哪里有好吃的呀 -> 上海的餐館;location : shanghai, category : restaurant。
這個也是在具體的反饋式增強模型階段來處理,當然也需要有一些特定的引導。
開源的工具倒沒有看到,但是相關方法今年ACL有幾篇文章是關于把自然語言轉成特定形式化描述的,可以去看一看。其中有的也用到了深度學習,但是需要一些語料支持。
我理解這類開源的很少,畢竟都還不成熟,希望將來有人可以做一些開源的工具出來。
Google 的 開源的 tensorflow 有一個seq-to-seq的框架,您覺得怎么樣
seq-to-seq是一個非常好的框架,我們也會用到這類工具做線下的一些調研和訓練。
我現(xiàn)在遇到的問題,就是訓練好的聊天機器人,但是有的問題的回答并不理想。
明白,深度學習(DL)有個問題就是不好解釋。
這個你只能通過更好的語料及更細致的參數(shù)調整才能有所改善,否則就需要加入其它方法。
想請教下深度學習目前在NLP中主要應用在哪個方面?數(shù)據(jù)還是模型中?
其實現(xiàn)在很多NLP任務都才嘗試深度學習(DL),但是看起來效果并不好。
至少不會像圖像識別和語音識別那樣有很大的提升,基本上都是比較微弱的。
深度學習(DL)雖然在特征泛華和分層上有更強的能力,但是NLP問題終歸還是一個語言的問題,首先需要針對語言本身有更多的理解和建模,然后才能談更多語料上的訓練。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。