丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給宗仁
發(fā)送

1

專訪小 i 機器人CEO朱頻頻:聊天機器人進入深耕應用場景的時候,什么才是真正的殺手锏?

本文作者: 宗仁 2017-08-31 17:47
導語:聊天機器人接下來要在學術會議中具體要學習到什么?實際應用場景中受技術影響的因素有多大?具體應用時要注意些什么?

雷鋒網(wǎng)按:今年的墨爾本IJCAI 2017上, 一眾中國公司參會并出現(xiàn)在其白金贊助商名單上,其中的小i機器人是8家贊助商名單中比較特別的一家,或許它的AI造勢不如BAT們來得那么聲勢浩大,但它的聊天機器人在垂直領域的深耕或許你早有耳聞,通信、金融、電子政務、電子商務、智能硬件這些在同行眼中比較難啃的傳統(tǒng)領域和新興領域它們都一一涉足,競爭對手形態(tài)則從單純的聊天機器人,客服機器人上升到深度語義平臺,云服務平臺等。如此,在單個領域,百度DuerOS、騰訊小微、思必馳、三角獸這樣級別的公司都可以算作它的“對手”,但小i機器人跟大家“交鋒”的時候方向跟對手各有細微側(cè)重,多個領域合力的結(jié)果,就是小i 聊天機器人在智能客服等領域“市場份額越來越大”,“各個垂直領域語言知識庫和業(yè)務知識庫也愈來愈豐富”,儼然一匹不可忽視的實力黑馬。

究其原因,其一是聊天機器人背后的語義識別的技術難度本來就大;其二是聊天機器人應用的具體細分領域,各自領域的行業(yè)壁壘并不低,沒有一定的行業(yè)積累和時間投入,對手很難在短時間內(nèi)追上。但是聊天機器人接下來要在學術會議中具體要學習到什么?實際應用場景中受技術影響的因素有多大?具體應用時要注意些什么?在聊天機器人進入深耕應用場景的時候, 又怎么通過學術會議更上一層樓?就此雷鋒網(wǎng)在IJCAI上特意訪問了小i機器人CEO朱頻頻。

關于IJCAI

采訪IJCAI澳洲主席的時候,他提到小 i 是國內(nèi)第一個來贊助這個大會的,包括之前小 i 也出現(xiàn)在諸多人工智能大會的白金,黃金贊助商名單上,小 i 贊助學術大會的標準是什么?需求是什么?

中文自然語言處理在上個世紀年代已相對成熟,我們做的主要工作是在以前的NLP的基礎上把它工程化,以及解決在行業(yè),領域?qū)嵺`中的數(shù)據(jù)問題,去做一些整合工作,再不斷地迭代,形成自己在數(shù)據(jù)層面、引擎層面的壁壘。

我們來學術會議,會重點關注是不是有一些比較顛覆性的技術,可能會重新定義或改變以前的圖像識別,聲音處理,自然語言處理的方法。雖然目前DL已經(jīng)極大地改變了圖像識別的方法,但在自然語言處理方面還不是那么的明顯,在學術上也有很多探索,但在實際應用中還沒有收到一個比較好的反饋,IJCAI作為世界頂尖的學術會議,里面有許多不錯的學生,最新的一些技術,以及跟世界最前沿的一些研究的對接。還有一點,最近國內(nèi)發(fā)布的一些人工智能報告說的挺客觀的一個事實,其提到國內(nèi)的人工智能并不落后,甚至在某些應用層面屬于領先,不過在原創(chuàng)和相對基礎的技術上,中國相對比較落后,這是我們要去 關注最前沿會議的一個關鍵原因。

總的來說,我們參加學術會議的標準可以歸納為3點:向工業(yè)化靠近;跟語言語義比較相關的;相關會議中的國際頂會。

這次小i在IJCAI industry day的演講主題是《聊天機器人的產(chǎn)業(yè)應用實踐》,為什么選這個? 您自己去聽了哪些演講,主要想學習或者了解到什么?哪些學術論文和討論讓您受到了啟發(fā)?

學術工作很多時候會關注在非常細的一些點,比如某個算法上可能會提升多少個百分點,這在工業(yè)應用上并非最關鍵的部分,最關鍵的部分其實是看這個算法的綜合效果,對數(shù)據(jù)的要求,或者基于數(shù)據(jù)的工作對整個系統(tǒng)的提升。

我自己聽了一個關于對文章標題的辨識(相符,有歧義,不符合)的相關論文報告,這個論文主要講通過機器學習,把提取關系的方法轉(zhuǎn)化成語義排序的方法,但這就是一種新的方法,效果好不好后面有待驗證。據(jù)我的了解,當它采用人工標注的方式去對主流門戶網(wǎng)站的媒體文章標題進行符合度辨識時,論文的調(diào)查結(jié)果很有意思。其中發(fā)現(xiàn)新浪搜狐文章標題的百分比顯示正常,今日頭條文章標題的misleading(不符合)的比例則達到了30%,我自己對此的理解就是,這個地方是個標題黨。另外還聯(lián)想到一個點就是知識圖譜,目前它的初始關系圖大都是人幫建的,然后要去做好本體,以及各個內(nèi)在關系在語義上的描述,但我想目前這塊除了人工標注的方法,有沒有自動的方法?

接著說上面關于對文章標題黨的辨識論文的實際價值,同樣的工作,還有互聯(lián)網(wǎng)上非結(jié)構(gòu)化的數(shù)據(jù)去尋找這樣的關系,我們更看重其可能可應用于幫助我們?nèi)グl(fā)現(xiàn)和搜集規(guī)則,上面論文提到的排序法可能會出現(xiàn)一些噪音,不過通過這些噪音分析會不會反而會通向真正的解決辦法?答案當然是智者見智,主要看人怎么去參與,根據(jù)我們的實際經(jīng)驗,最好的系統(tǒng)常常是用戶邊使用邊升級,所以可以嘗試用在數(shù)據(jù)挖掘中而非生產(chǎn)系統(tǒng)中,這是我暫時能想到的。

小i在學術研究上的合作院校有哪些?

目前有復旦,華東師范,中科院軟件所,中科院計算所,中科大(這個跟很多公司在合作)。另外我們在貴陽成立一個子公司,幫助他們建立大數(shù)據(jù)的人工智能平臺。今年聯(lián)合復旦實驗室投了論文,但沒做重點宣傳,換句話說,今年我們公司重心在做產(chǎn)業(yè)化,如果要定一個目標的話,希望稅后收入希望達到2億,去年是9000萬。

請總結(jié)一下您眼里小i本身在IJCAI的幾個亮點?

我認為主要有三點:

  • 贊助位置比較靠前(排在中國8家贊助商中的第二),呵呵。

  • 中國軍團抱團來參加(一定程度上說明中國的人工智能正處在全球領先的位置)。

  • 在參展的8家中國公司中,我們體量不算大,但我們是一家純粹的人工智能公司,我們所有的收入都來自人工智能,并不是讓人工智能助力它原本的其它業(yè)務,人工智能對于他們來說或許只是一種工具或手段,但對我們來說是全部,這在國內(nèi)并不常見,可能科大訊飛是屬于這一類的。

關于行業(yè)應用

語義識別,現(xiàn)在大公司百度DuerOS、騰訊小微,后起公司有科大訊飛,思必馳、三角獸,小 i 如何跟這些竟品差異化的?

人工智能技術是一系列技術,其它技術都呈現(xiàn)出這樣的狀態(tài),門檻降低,現(xiàn)在大家不在乎你能不能做,而是能不能發(fā)揮價值,在一些細分應用場景,各自的創(chuàng)業(yè)公司都在涉足,比如用在電話里的call understanding跟用在手機里的語音轉(zhuǎn)寫是兩回事,遠場喚醒和語音降噪又是一回事。但我們現(xiàn)在更看重其要產(chǎn)生商業(yè)價值。

根據(jù)我們的觀察,basic AI很多公司都能提供,但能做得好的并不多,包括2012, 2013年我們跟訊飛有很多競爭,現(xiàn)在沒啥競爭了,因為各自有各自的產(chǎn)業(yè)方向,現(xiàn)在正確的說法應該是稍微交叉。另外,想做這個方向的公司不少,但現(xiàn)在能形成氣候的公司不多,在產(chǎn)業(yè)里能形成威脅的不多,不少人在走我們之前走過的路,很多初創(chuàng)公司在語義層面去做。

另外,有時候我們發(fā)現(xiàn),目前95%的語義識別公司都在做2B業(yè)務,但語義識別里面能夠落地的目前就只有智能客戶等這些相對成熟的場景,一些初創(chuàng)公司一開始可以靠有趣的技術拿到天使投資,但要往A輪B輪靠的話,它就只能找到落地的商業(yè)模式了,這時候就需要找典型的客戶代表,所以我們會碰到一些創(chuàng)業(yè)公司以非常低的價格在跟客戶談,因為他們現(xiàn)階段急需案例和客戶。

你如何看待小 i 應用基因行程的關鍵折點?

嗯,我印象中比較深刻的幾個節(jié)點:

  • 06年開始做智能客服2B的嘗試。

  • 09年全面轉(zhuǎn)到2B的方式(當然到現(xiàn)在還沒到爆發(fā)階段)。

  • 11年下半年中國運營商開始采用智能客服機器人(當時運營商開始增長之前,我們正好已經(jīng)形成了我們產(chǎn)品化的套路,iBot 6.0已經(jīng)成型了)。

  • 11年10月份,蘋果Siri的發(fā)布,很大程度上把語音語義能力呈獻給消費者和人工智能從業(yè)者的眼中。

  • 13年上半年,我們給招商銀行做了微信上客服機器人,這個之后影響非常大,其它銀行紛紛把微信的客服當作一種標配。

關于深度語義平臺

深度學習甚至增強學習的沖擊,有沒有對小i語義識別技術提升產(chǎn)生很大的影響?

根據(jù)我們的實際經(jīng)驗,這兩類新的技術更多起作用的地方,是在數(shù)據(jù)挖掘,以及整個學習體系方面能起到不錯的效果,實際應用中的作用比預期要差很多。如果一定要說沖擊,很多AI創(chuàng)業(yè)者一開始的時候,會講其系統(tǒng)是用DL(深度學習)做的,用了最新的什么算法,以此來助力PR。

之前我們分析過國內(nèi)所有做Customer Service的系統(tǒng),大家的確都用了一些深度學習的技術,但在其中占的比例非常之小,但感覺大部分是用來做幌子做包裝的成分更大,在自然語音領域使用DL的有效度遠比在CV和云服務中用的要少。通常做自然語言理解方向又分為兩類:

  • 一類是百度那種面對巨大data開放的;

  • 一類是用在data儲備沒有那么大的商業(yè)領域。前者可能深度語音識別的用處比較大(機器學習從非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的數(shù)據(jù),再進行一定的人工智能判斷,開放型的這類平臺可能更傾向于從龐大的數(shù)據(jù)里挖掘出來潛在的某種關系,譬如知識圖譜關系的自動搜取就很有潛力)。

但就我們智能語音客服里邊用處比較小,2B業(yè)務更強調(diào)業(yè)務上的邏輯,比如多輪對話,動態(tài)交互,我們更看重做一些scam架構(gòu)提前預知,幫到用戶使用的時候快速把場景建立起來,這個過程有一些商業(yè)價值。目前一些創(chuàng)業(yè)公司做這個做得還不錯,通過把一些big data的分析,把機器學習和某些算法把一些常見的場景定義清楚,再變成一個圖形化的操作界面,使得用戶覺得非常方便,這樣用戶就不用關心底層技術,只要知道我已經(jīng)預知了某些模型,模型只要定義一些具體的參數(shù),導進來一些數(shù)據(jù),結(jié)果就會自動出來。

總的來說,我們需要預知商業(yè)客戶的常見需求,建立模型,然后方便它不斷激烈商業(yè)邏輯上的數(shù)據(jù)。案例見多了,預測和洞察能力就會建立起來。

2016年小i機器人發(fā)布最強大腦2.0平臺;2017年小i機器人發(fā)布小 i 中文深度語義開放平臺VS Machine Mind OS,這個迭代之間,應用了什么新的技術?

  • 我們今年的主要目標是深度語義,之前我們做智能客服的時候沒人做,現(xiàn)在這個已變成一種剛需,使用比較久的客戶,它會關注解決一系更深入的需求;

  • 中小客戶和剛剛創(chuàng)業(yè)的客戶更關注FAQ的搜索。

基于這樣的大前提,也是為了兼顧我們的產(chǎn)品定位,我們分成了basic  AI和deep AI,主要通過云服務和標準版服務往外輸出,(在有標注的前提下,能讓用戶快速上手;deep AI很多能力是小i獨家的能力,知識圖譜的推理不少研究機構(gòu)就有,我們的方法更容易獲得有效的擴展,多意圖的理解,我們找到了一種非常有效的方法來解決這一類問題)。

舉個例子,比如“上海的天氣怎么樣,上海的特產(chǎn)是什么?”——“上海的天氣”是個問題,“上海的特產(chǎn)”是個問題,但你不可能求做個新問題就是“上海的天氣和特產(chǎn)是什么”,其實你在背后做組合,兩個問題組合成一個問題,這種情況下背后在做很多推理工作。深度神經(jīng)網(wǎng)絡很大的一個問題是,它本身對于自然語義是不理解的,它只是基于一定特征的基礎上做一個映射,一旦情況有些變化,它需要對整個句子進行學習和構(gòu)建。所以現(xiàn)在大家常用的方法,是如何用DL對針對比較大的數(shù)據(jù),結(jié)合以前的先驗知識,共建一個效果最好的方法。譬如我們對話引擎中會用到一個主引擎,一個副引擎,副引擎在特殊情況下啟動的。

另設計一個好的DL架構(gòu)也不容易,好比AlpaGo做的圍棋系統(tǒng),F(xiàn)B也在做,但前者一開始的架構(gòu)設計比較好,包括它自己幾千萬盤的自我對弈,之前人類棋局中都沒出現(xiàn)過。

小i的中文深度語義開放平臺能夠應用于智能客服、智能知識庫、智能IVR、實體機器人、智能硬件等多種場景。我想問基于一個平臺,應用于多個場景,這其中技術上,不變的地方是哪部分?要變的地方是哪部分?

如果你去做一套獨立系統(tǒng)的話,這件事情相對簡單, 但我們需要把AI的技術提供給我們客戶,不同客戶系統(tǒng)的版本都不一樣,這會對體系的架構(gòu)擴展要求非常高,這樣我們會把我們的體系分成幾個不同的模塊,每個模塊之間用比較松散耦合的模塊在組合。不同領域的客戶,哪些是共通的,總結(jié)一下就是:

  • 底層的,引擎的,邏輯,處理能力是共通的。

  • 各個領域的語義庫,知識庫,上層應用是不同的,前面的交互渠道是不同的,開發(fā)的時候要把一些共通的部分預知到里面去,并對一些基礎的API提供二次開發(fā)的空間。

其中的語義和知識庫是最不同的,不同領域的語義其詞類不同,句子的平行語料不同,詞和詞之間訓練的權重模型也不一樣,不同領域的詞類不一樣。以銀行為例,不同的銀行客戶,銀行語料庫是可以共用的,但知識庫不一樣,70%,80%層面問題是相同的,答案很不一樣,業(yè)務邏輯中,有的需要跟云和圖像結(jié)合起來,這些地方挑戰(zhàn)較大。還有一些客戶會要求這套系統(tǒng)部署到自己的私有云服務器里去,要多解決很多問題,要適配不同的系統(tǒng),中間層面的軟件,不同的數(shù)據(jù)庫,甚至不同的網(wǎng)絡安全策略。

通常我們的應對辦法就是,系統(tǒng)部署都要做好適應二次開發(fā)的心理準備(用戶界面,動態(tài)數(shù)據(jù),第三方登錄用戶權限),對接多了后就會把這些定義成幾個基礎的接口。更重要的是知識層面的,分清哪幾個類別,原始素材的地方和形式(FAQ還是文檔,在線人工智能客服的形式),開始做之后有個測試的過程,80% ok后再上線,上線之后還有個運營的過程,從自身網(wǎng)站怎么學習,從第三方網(wǎng)站來的怎么去學習。

小結(jié):

常年在學產(chǎn)兩界“跑場”的人都知道, 一般學術界做的東西會比產(chǎn)業(yè)界發(fā)現(xiàn)它提前3-5年,然后學術界比較成功的demo可能兩年后就能在產(chǎn)業(yè)界出現(xiàn)了,慢一點的5年也有可能。自2015年人工智能恢復火熱以來,中國產(chǎn)業(yè)界公司出現(xiàn)在各種國際頂會已經(jīng)成為學術會議的一道特殊風景,它們不僅關心學術界的前沿研究,還從資金、數(shù)據(jù)和計算力上實打?qū)嵉刂С謱W術界的研究,雖然投入巨大,學術到產(chǎn)業(yè)之間的轉(zhuǎn)化周期也不算短暫,但各家公司都在研究和研發(fā)之間尋找合理的平衡,尋找學術學術投入和產(chǎn)業(yè)價值之間合理的轉(zhuǎn)化百分比。

雖然不能短時間內(nèi)立竿見影,但大家對于學術的投入還是很熱衷,在學術方面的積累對于技術方面的壁壘建立,以及給予技術壁壘后續(xù)更多的想象空間,還是有長遠意義的一件事,新加入的AI公司在踐行,早就深耕應用場景的小i機器人在踐行,不過后者以過來人的姿態(tài)參與,顯得更有借鑒意義一些。

專訪小 i 機器人CEO朱頻頻:聊天機器人進入深耕應用場景的時候,什么才是真正的殺手锏?

雷鋒網(wǎng)注:圖為朱頻頻在IJCAI Industry Day上受邀做《聊天機器人的產(chǎn)業(yè)應用實踐》的報告瞬間。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪小 i 機器人CEO朱頻頻:聊天機器人進入深耕應用場景的時候,什么才是真正的殺手锏?

分享:
相關文章

專注AIR(人工智能+機器人)

專注人工智能+機器人報道,經(jīng)驗分享請加微信keatslee8(請注明原因)。 科學的本質(zhì)是:問一個不恰當?shù)膯栴},于是走上了通往恰當答案的路。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說