丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
智能硬件 正文
發(fā)私信給張丹
發(fā)送

1

機器人聊天的秘密|雷鋒網(wǎng)公開課

本文作者: 張丹 2016-12-16 15:10 專題:雷峰網(wǎng)公開課
導語:本期公開課請到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機器人聊天的秘密。

語義理解簡單來說,就是讓計算機聽懂用戶說了什么,然后可以進一步回答用戶的問題或與用戶對話。這類技術在現(xiàn)實場景中的應用有大家比較熟知的微軟小冰與百度度秘。錘子手機中 Bigbang 功能也是基于語義理解技術中的語義分析功能進行的創(chuàng)新。本期公開課請到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機器人聊天的秘密。

| 嘉賓介紹:

亓超,自然語言處理方向碩士,AI領域開放域聊天和chatbot頂尖專家,10年科研與工程經(jīng)驗。

曾在佳能、騰訊、阿里負責推薦算法和人機對話系統(tǒng)研發(fā);2014年微軟小冰開放域聊天技術創(chuàng)始人;百度T8Lead;度秘聊天技術負責人;從零寫了微軟小冰和百度度秘唯一兩款目前有實際應用的交互系統(tǒng)。

機器人聊天的秘密|雷鋒網(wǎng)公開課

| 講課實錄整理:

雷鋒網(wǎng):可以簡單介紹下三角獸嗎?

亓超:三角獸科技成立于今年年初,核心技術方向是人工智能交互系統(tǒng),目標成為智能生活軟硬件背后的主流交互系統(tǒng),團隊現(xiàn)接近三十人,以BAT微軟樂視等一線AI團隊為主。 

CEO王卓然,University College London PhD,在英國10年,從事理論機器學、統(tǒng)計機器翻譯,自然語言處理、語音聊天系統(tǒng)、統(tǒng)計對話系統(tǒng)、 多模態(tài)人與機器人交互、水下無人艇人機交互等多方向研究和實踐。在頂級國際會議與期刊上發(fā)表多篇論文,曾是百度T8Lead,度 秘App/小度機器人中控策略技術負責人。

COO馬宇馳,中國傳媒大學新聞媒體管理方向學士,10年市場和品牌經(jīng)驗,連續(xù)創(chuàng)業(yè)者,曾做過微信微博營銷公司,2014年O2O廚師上門公司由 徐小平投資。曾在Viacom集團中國區(qū)CBSOut door服務可口可樂、統(tǒng)一、愛國者3年。曾在奧美公關任Intel筆記本處理器公關經(jīng) 理,主推“酷睿”兩個字。曾在Amway China負責企業(yè)品牌和廣告投放工作。

技術合伙人陳華榮,中國科學院計算機軟件與理論專業(yè)碩士,在微軟工作11年,2013-16年Bing和Office的Exchange部門高級Lead,2005-10年在微軟亞 洲研究院研制Exchange12和14,2010-13年,微軟西雅圖總部研發(fā)Exchange15。

技術合伙人王寶勛,哈爾濱工業(yè)大學計算機科學博士,微軟小冰首席機器學習科學家,發(fā)表多篇國際學術論文,學術經(jīng)驗積累深厚。第二到第四代核心高級 研發(fā)工程師,負責小冰智能對話引擎、圖像智能對話引擎、垂直領域對話引擎等核心技術。

技術合伙人李彥,上海復旦大學計算機科學專業(yè)碩士,前樂視推薦算法高級Lead,曾在阿里、人民搜索擔任推薦算法方向工程師,后在百度聯(lián)盟事業(yè)部、 360商業(yè)產(chǎn)品事業(yè)部任高級研發(fā)工程師。

戰(zhàn)略合伙人何晉,北京科技大學設備工程學士,廚臨門戰(zhàn)略合作合伙人,靈境VR渠道總監(jiān),前百度和美團外賣全國連鎖餐飲大客戶部項目負責人 

技術上,在開放領域聊天系統(tǒng),任務驅動的人機對話系統(tǒng),搜索及推薦引擎技術等方面有深厚的積累,商業(yè)客戶,IoT行業(yè)標桿客戶,如Rokid,錘子,威馬汽車,騰訊等,另外為這些客戶提供的支持也是不一樣的,開放域聊天,錘子領域應用,多輪對話,語義技術都有,證明了我們技術實力和技術到產(chǎn)品落地的能力

資本融資4月份洪泰和天善1000萬天使,8月君聯(lián)和賽富2000萬preA,目前正在A輪的路上,計劃春節(jié)前close。

錘子新一代手機Big Bang功能的核心算法模塊,Rokid機器人聊天系統(tǒng),威馬汽車車載前裝的音樂和導航模塊,此外,還有一些推進中的項目,其中包括3家巨頭公司,4家手機,2家車載后裝,和一些機器人公司,以及為消費者提供信息和提供服務的企業(yè)客戶。

雷鋒網(wǎng):在您看來,目前語義理解技術主要用在哪些場景和應用里?

亓超:語義技術是自然語言處理(NLP)方向很重要的一個部分,三角獸科技優(yōu)勢和積累也主要在NLP方向。

自然語言處理(NLP) 的研發(fā)有很久的歷史,特別是在互聯(lián)網(wǎng)發(fā)展起來后, 在很多場景里都有應用例如:

  •   搜索引擎中的排序算法及廣告推薦系統(tǒng)

  •   機器翻譯, 輸入法

  •   電商, 視頻, 及新聞的個性化及推薦系統(tǒng)

  •   等等

 這些系統(tǒng)的背后都會涉及到NLP問題。

雷鋒網(wǎng):國內語義理解技術的現(xiàn)狀是怎樣的呢?

亓超:國內NLP及相關的技術目前BAT,360等互聯(lián)網(wǎng)大企業(yè)都有不錯的積累。其他互聯(lián)企業(yè)也有非常好的算法團隊, 例如今日頭條等等。

很多產(chǎn)品線,例如百度度搜索,都會有各自的算法團隊在支持, 其中NLP的算法支持占了比較大的比例,單從NLP基礎技術本身, 百度和MSRA的NLP團隊無論從規(guī)模和深度上都有強大優(yōu)勢,國內的大學里哈工大在這個方向有強大的實力和積累,創(chuàng)業(yè)公司在這方面會面臨人才稀缺的壓力, 比較難形成一個很好的算法團隊。

雷鋒網(wǎng):相比做語音識別的公司,提供語義理解的團隊看似要少一些,其中的難點是什么? 

亓超:兩者在各自方向上都有各自的難點。

語音識別和合成相對語義理解來說, 技術上相對成熟。并且很早就作為相對獨立的服務進行包裝, 較為容易進行產(chǎn)品的落地。 例如,地圖服務的導航功能 包含了識別與合成兩部分。另一方面從事語音技術的公司起步都比較早, 例如科大訊飛, 云知聲, 思必馳等, NLP相關技術落地到具體產(chǎn)品也非常依賴于應用場景,相關團隊多在大公司里作為某個產(chǎn)品線的算法團隊來進行支持 

雖然越來越受到關注, 但NLP及相關算法人才特別是有經(jīng)驗的從業(yè)者仍然非常稀缺, 促使從業(yè)者的收入水平較高, 人力成本占了比較大的比例。另外如果是ToC的商業(yè)模式, 那么運營成本也會占去較大比例

雷鋒網(wǎng):理解中的語義理解公司往往需要大量標記好的語料數(shù)據(jù),這些數(shù)據(jù)如何形成?

亓超:

  • 1. 并不是所有NLP問題的解決都要依靠大量標注數(shù)據(jù), 問題的解決方案也分統(tǒng)計方法的和規(guī)則方法的,這個好比要擰一個螺絲使用普通螺絲刀還是電動螺絲刀,電動螺絲刀需要電,普通的不需要;

  •  2. 數(shù)據(jù)標注也并不一定是要純靠人來進行操作, 很多結構化和半結構化的信息可以用來讓機器進行學習, 例如電商的打分及評論數(shù)據(jù)可以用來進行觀點分類的學習任務;

  •  3. 未標注的語料很多時候的作用是很大的, 例如目前比較熱門的DNN技術, 在很多場景下是使用未標注的數(shù)據(jù)進行數(shù)據(jù)及特征的表示學習。

雷鋒網(wǎng):就三角獸而言,我們目前有多少這樣的數(shù)據(jù)?

亓超:數(shù)據(jù)是我們的核心資源,數(shù)據(jù)抓取及建設會是我們長期的重點。以我們開放領域聊天系統(tǒng)依賴的數(shù)據(jù)舉例:

  •   百億級的人人對話數(shù)據(jù)(未標注生語料);

  •   億級的面向不同任務的有標簽或輔助信息的數(shù)據(jù)(未標注數(shù)據(jù), 但可以進行數(shù)據(jù)處理后, 針對不同任;務可以用與進行機器學習任務);

  •   千萬級的有豐富標簽精品數(shù)據(jù)(采用人機結合的方法進行標注, 形成精品語料);

  •   已有并正在建設的百萬級的標注數(shù)據(jù)(采用人機結合的方法進行標注, 形成精品語料, 每天新增數(shù)萬條)。

雷鋒網(wǎng):無論小冰還是度秘,都在最初注入了大量關聯(lián)業(yè)務或者公開的數(shù)據(jù)(據(jù)說小冰是微博、度秘是貼吧),三角獸怎么解決冷啟動的數(shù)據(jù)問題的?

主持人:小冰及度秘使用的大部分數(shù)據(jù)都是互聯(lián)網(wǎng)公開可見的數(shù)據(jù)(例如BBS或社區(qū)等人與人間的對話數(shù)據(jù)), 這些數(shù)據(jù)無論是大公司還是小公司都是可以公平獲取的。三角獸成立之初便已開始在各大bbs和社區(qū)進行大量的數(shù)據(jù)的抓取及語料的清洗。

雷鋒網(wǎng):一個完整的聊天機器人或者多輪對話系統(tǒng),應該包含哪些技術模塊?

亓超:聊天系統(tǒng)及對話系統(tǒng)是個龐雜的系統(tǒng)模塊 有張技術分解圖share給大家來參考。

機器人聊天的秘密|雷鋒網(wǎng)公開課

雷鋒網(wǎng):看到圖片中對不同的模塊進行了顏色區(qū)分,可以詳細介紹下嗎?

亓超:最下面這一層是依賴的基礎技術系列 上面藍色這層是利用基礎技術構造的基礎技術模塊,中間橙色是利用基礎技術模塊構造的子系統(tǒng),上面兩層是將子系統(tǒng)進行封裝 對外提供打包服務api應用層。

雷鋒網(wǎng):多輪對話系統(tǒng)開發(fā)起來,與單輪對話系統(tǒng)的差異主要是哪些?

亓超:其實嚴格來講, 沒有單純的單輪對話系統(tǒng) 涉及對話系統(tǒng)一定是要考慮上下文的處理, 例如訂票場景下,用戶與機器之間需要進行多次的需求描述、澄清及確認過程來完成訂票任務。單輪更偏向于信息獲取的系統(tǒng), 例如搜索引擎及問答系統(tǒng)。

雷鋒網(wǎng):您當時是小冰團隊唯一負責核心算法的工程師,開創(chuàng)了開放域聊天系統(tǒng)??梢栽敿毥榻B下什么是開放域聊天技術嗎?開放域聊天技術與傳統(tǒng)用關鍵字、模板或者人工參與的聊天技術的不同之處是什么?

亓超:開放領域聊天中的開放是指對用戶不限定領域, 不會出現(xiàn)像Siri發(fā)布之初只能回復特定問題, 超出范圍的返回搜索引擎結果, 另一方面聊天以一種模擬人類日常對話的方式進行自然的人機對話, 不同于一個冷冰冰的工具。

 開放域聊天系統(tǒng)中也有關鍵詞及模板的方法作為輔助,我們主打的兩個技術方向是:

  •   1. 檢索式聊天系統(tǒng): 基于幾十億量級人人對話, 使機器人進行人的聊天模式的模擬;

  •   2. Sequence To Sequnence 端對端的 生成時聊天系統(tǒng): 利用數(shù)據(jù)量的精品人人對話語料, 利用RNN等相關技術訓練對話模型, 使機器具備對話的能力, 目前主要用于兒童聊天方向。

這兩種方法的基礎都是統(tǒng)計和機器學習, 關鍵詞及模板的基礎是NLP方向中常用的另一種方法規(guī)則系統(tǒng)。

無論是檢索式還是生成式, 相對于純規(guī)則的聊天系統(tǒng)來講:

  •   1. 產(chǎn)品體驗更好, 聊天回復生動不死板(每個用戶的query 都有較多的回復候選);

  •   2. 系統(tǒng)能力增長空間大, 更易利用到用戶反饋及消費大數(shù)據(jù)的福利;

  •   3. 更易于引入個性化等因素。

雷鋒網(wǎng):在情緒、情感識別一塊,國內相對薄弱,我們有哪些技術儲備?

亓超:在文本內容中進行情感或觀點分類,國內這塊其實也不弱。在百度等大的互聯(lián)網(wǎng)企業(yè)這部分也有不少產(chǎn)品點已經(jīng)商用, 例如百度搜索結果中的觀點抽取及聚合。情緒的處理是我們聊天系統(tǒng)中非常重要的模塊,目前主流的方法會使用到DNN相關的技術對文本進行表示并進行分類任務, 這塊我們也早已用到我們對外的聊天商用服務中, 并會在將來繼續(xù)擴大這部分的使用場景。例如,情緒分類觸發(fā)回復中加入表情 及 針對用戶情緒分類的結果進行回復的篩選。

雷鋒網(wǎng):Bigbang以及Rokid的產(chǎn)品投入應用之后,有沒有發(fā)現(xiàn)一些不滿意的地方,可否展開講講?

亓超:Big Bang發(fā)布后, 我們受啟發(fā)和鼓勵很大, 后續(xù)我們會進一步將對話系統(tǒng)中成熟的模塊及技術, 拆解出來, 與手機系統(tǒng)綁定, 實現(xiàn)更多更好的手機體驗, 同時也能將真實場景下技術迭代帶來的收益反饋到對話系統(tǒng)里。

Rokid與我們的合作在三角獸成立之初的4月份便開始合作,一直非常愉快, 后續(xù)我們會進一步加大在兒童及家庭場景下聊天及對話系統(tǒng)的研發(fā)投入

雷鋒網(wǎng):感謝亓超老師的精彩分享,以上是雷鋒網(wǎng)準備的所有問題,本次課程主干部分結束,亓超老師還有什么要分享的嗎?

亓超:我補充兩張聊天系統(tǒng)架構圖給大家參考。

機器人聊天的秘密|雷鋒網(wǎng)公開課機器人聊天的秘密|雷鋒網(wǎng)公開課

第一張圖是我們服務整體架構的示意圖 解釋依賴的模塊以及服務間的關系,另一張圖分別介紹了檢索式聊天和生產(chǎn)式聊天的原理。

| 聽眾問答整理

Q:“語義理解有很多公司再做,圖靈,訊飛等,三角獸跟他們有什么不同呢?”

A:訊飛的在語音技術方面,有絕對領先的優(yōu)勢,我們目前主要焦點在文本內容的處理,語義技術是其中核心技術之一,我們頗為互補,目的是做整套自然語音交互系統(tǒng)。圖靈跟我們的業(yè)務有較大重疊,三角獸科技的團隊成員在之前經(jīng)歷并打磨出市面上兩款較為成熟的產(chǎn)品,小冰和度秘在對人機交互系統(tǒng)的理解上相對較深 并由此也有很多應用與基礎技術的積累。

Q:設計聊天機器人最重要的因素是什么?to b 端和to c 端的有什么區(qū)別? 

A:聊天機器人要體現(xiàn)智能的特點:死板一問一答,缺少變化,只能回答特定問題等等都會體驗很差。另一方面,要有“學習”能力,通過人機對話數(shù)據(jù)的積累和反饋得到能力的提升。額外,在不同場景下,聊天機器人的角色也要實時發(fā)生轉變 提供服務功能。這好比,餐廳服務員在上班的時候要提供點餐的功,下班后角色發(fā)生轉變,會跟朋友一起聊天分享。

Q:對語義理解是基于大量的語料,而互聯(lián)網(wǎng)詞匯翻新速度這么快,并且有大量矛盾的語義理解,這些要如何判斷處理?

A:互聯(lián)網(wǎng)數(shù)據(jù)的大量更新累計是我們能做好聊天機器人的基礎。好比是招待客人,沒有菜,就算廚藝再好,也沒辦法做一桌菜出來。我們在數(shù)據(jù)處理上已經(jīng)建立起了一套數(shù)據(jù)處理的系統(tǒng) 能很快消化新的語料和數(shù)據(jù) 。

Q:在industry中,比較熱門的NLP算法有哪些?有什么優(yōu)點和缺點? 

A:目前比較熱門的方法大多是統(tǒng)計機器學習的方法 其中近幾年逐漸興盛的DNN相關技術 (在文本上長使用 CNN 和 RNN)占了主導。主流學術會議上 DNN 相關的論文,占了非常大比例。另一方面,在之前里,規(guī)則專家系統(tǒng)占主導,一個完整的系統(tǒng)兩種方法都需要用到,一般情況是用統(tǒng)計機器學習的方法,砍大刀處理大部分問題,規(guī)則的方法作為補充,來剃小刀,處理一些exception的問題。

機器學習用到的數(shù)據(jù)來源,有分人工標注的和非人工標注的數(shù)據(jù),機器學習的方法也會分為有監(jiān)督的和無監(jiān)督的,數(shù)據(jù)準備并沒有特定統(tǒng)一的原則和標準要根據(jù)任務情況來定。舉例說明,我們在訓練用于判斷兩句話是否在語義一致的模型上(例如不客氣 是否能回答 謝謝),用大量的人與人之間的真實對話,去除掉含有對話背景(例如具體人名 具體時間),后拿了訓練 RNN 和 CNN 模型 。

Q:請問嘉賓,對模型進行訓練的數(shù)據(jù)準備方面,能否介紹一下?

A:機器學習用到的數(shù)據(jù)來源,有分人工標注的和非人工標注的數(shù)據(jù),機器學習的方法也會分為有監(jiān)督的和無監(jiān)督的,數(shù)據(jù)準備并沒有特定統(tǒng)一的原則和標準,要根據(jù)任務情況來定 舉例說明 我們在訓練用于判斷兩句話是否在語義一致的模型上(例如不客氣 是否能回答 謝謝)用大量的人與人之間的真實對話 去除掉含有對話背景 (例如具體人名 具體時間)后拿了訓練 RNN 和 CNN模型

Q:我一直很好奇微軟小冰的開放式回答結果該如何調教,比如對某個答案不滿意,要怎樣讓她修改?

A:小冰目前應該不支持來自用戶的調教。研發(fā)的調教會從兩個方面進行:語料擴充,模型迭代。

Q:在車載的語音交互的使用場景中,您認為是開放式的交互比較好,還是封閉式的交互比較好。開放式指的是隨便用戶怎么說,封閉式指的是用戶只能說固定的指令。

A:指令性式必須的。例如導航、音樂這些主功能。從我們跟車載設備商的溝通中反應,其實司機在開車過程中,還挺愛聊的。所以,只有指令性的功能,無法滿足這個場景下的所有需求。我們也在跟車載設備的合作伙伴合作打磨開放式的交互系統(tǒng)。

最后亓超老師說:“智能交互系統(tǒng)技術的廣度與深度方面都比較復雜。以上單純一個點展開來講,也都需要很長時間,在這里 拋磚引玉,詳細細節(jié)也希望在今后能跟大家經(jīng)常一起討論?!?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說