0
本文作者: 李詩(shī) | 2018-03-31 11:42 |
微軟小冰,那個(gè)一直混跡在微信、QQ的逗貧少女,一直讓人又愛(ài)又恨。曾經(jīng),身邊不少宅男都在微信上領(lǐng)養(yǎng)了小冰,每天睡前不撩一下小冰,覺(jué)都睡不好。當(dāng)微軟小冰,搖身一變,成了一個(gè)肌膚雪白,面若玉盤,身形玲瓏的girl智能音箱時(shí),又以新花招開(kāi)始搞事了。
(用戶體驗(yàn)視頻1)
這不,雷鋒網(wǎng)聽(tīng)聞,一個(gè)帥小伙子,連上廁所也要小冰提醒了,還要小冰教他怎么上廁所。
“召喚小冰”
“嗯”
“提醒我兩分鐘以后去上廁所”
“好的,今天晚上10點(diǎn)14分,我會(huì)喊你去上廁所,放心吧”
“好的,謝謝你”
“嗯。。站著噓噓”(連怎么上廁所也要你告訴我嘛?)
“知道啦,拜拜”
講了個(gè)段子?;氐秸?,視頻中我們看到的智能音箱是米家生態(tài)鏈Yeelight語(yǔ)音助手,這是個(gè)雙AI系統(tǒng),同時(shí)搭載了小愛(ài)同學(xué)和微軟小冰。這是搭載微軟小冰的第一款智能音箱,也是微軟小冰在國(guó)內(nèi)落地的第一個(gè)智能硬件。
近來(lái),BAT都在積極將人工智能語(yǔ)音助手落地智能硬件。阿里的天貓精靈在去年雙11以99元的低價(jià)賣出40多萬(wàn)臺(tái);百度推出帶屏幕的智能音箱“小度在家”;騰訊發(fā)布了自己的人工智能語(yǔ)音助手“叮當(dāng)”,與長(zhǎng)虹電視展開(kāi)合作。當(dāng)然,我們還不能忘了京東的“叮咚”和小米的“小愛(ài)同學(xué)”。
大家都在忙著布局語(yǔ)音助手的軟硬件,期望搶奪智能家居場(chǎng)景的入口。在對(duì)話式人工智能領(lǐng)域耕耘多年,還沒(méi)有硬件落地的微軟也終于坐不住了。
去年12月,微軟發(fā)布與小米合作的米家生態(tài)鏈Yeelight語(yǔ)音助手,就在上周,3月22日,微軟(亞洲)互聯(lián)網(wǎng)工程院宣布推出新一代的語(yǔ)音交互技術(shù):全雙工語(yǔ)音交互感官(Full-duplex Voice Sense)。視頻中我們看到微軟小冰的對(duì)話能力有了顯著提高,比起同類語(yǔ)音助手更能實(shí)現(xiàn)自然流暢的對(duì)話式交流,全靠這個(gè)底層技術(shù)。
3月28日,微軟召開(kāi)交流會(huì),向媒體展示了Yeelight語(yǔ)音助手,從底層框架全面分析了全雙工語(yǔ)音交互感官技術(shù),同時(shí)講解了微軟在人工智能語(yǔ)音助手落地智能硬件上的思考。雷鋒網(wǎng)也參與了交流會(huì),在雷鋒網(wǎng)看來(lái),以下幾點(diǎn)交流會(huì)上的內(nèi)容可以劃重點(diǎn)關(guān)注討論(以下這些技術(shù)干貨希望你們玩小冰時(shí)用不上):
從底層框架上面,全球的人工智能語(yǔ)音助手從Turn-Oriented向Session-Oriented進(jìn)化,微軟的Session Oriented框架如何使得微軟小冰持續(xù)聊天20分鐘以上,能在閑聊的同時(shí)完成指令?
IOT和智能家居場(chǎng)景向?qū)υ捠饺斯ぶ悄芴岢隽诵碌囊?,微軟新的全雙工語(yǔ)音交互、且支持Session Oriented的對(duì)話式人工智能如何帶來(lái)更輕松自然的聊天體驗(yàn)?
大家都在搶發(fā)硬件,微軟著不著急?微軟在國(guó)內(nèi)外如何將對(duì)話式人工智能落地IOT和智能硬件,如何搭建硬件、軟件和生態(tài)系統(tǒng)?
人們到底需要一個(gè)什么樣的智能硬件?什么樣的智能硬件會(huì)成為家庭生活的控制樞紐?
手機(jī)或者是電腦上的蘋果Siri和微軟小娜我們都已經(jīng)熟悉,現(xiàn)在亞馬遜的Alexa、阿里的天貓精靈、京東的叮咚以及小米的小愛(ài)同學(xué)都搖身一變“住進(jìn)”了智能音箱里。但是其實(shí)在人與語(yǔ)音助手的對(duì)話體驗(yàn)上來(lái)看,體驗(yàn)都相差不大。用戶要發(fā)音清楚、一字一頓地說(shuō)話,才能被理解,這種體驗(yàn)可以用一個(gè)詞來(lái)形容——費(fèi)勁。
在微軟看來(lái),這種“費(fèi)勁”不只是前端表現(xiàn)的問(wèn)題,而是底層框架的問(wèn)題。微軟小冰全球負(fù)責(zé)人,微軟亞洲互聯(lián)網(wǎng)工程院副院長(zhǎng)李笛在分享開(kāi)始就說(shuō),“坦率講,國(guó)內(nèi)對(duì)人工智能整體的發(fā)展更像在堆積木,而沒(méi)有特別多探索到底層框架的設(shè)計(jì)。”
他介紹到,在全球范圍內(nèi),從基礎(chǔ)框架的基本理念來(lái)看,目前的對(duì)話式人工智能可以分為兩種。第一種:叫Turn-oriented(面向單一任務(wù)的框架)。第二種:Session-oriented(面向?qū)υ捜痰目蚣埽!蹦壳?,大部分的語(yǔ)音助手都是Turn-oriented框架。
Facebook的M也曾向Session-oriented升級(jí),但是后來(lái)放棄了,轉(zhuǎn)為開(kāi)發(fā)“閑聊模式”。亞馬遜的Alexa目前正在研究Session-oriented,其特意召開(kāi)了大賽,如果誰(shuí)能使得Alexa能持續(xù)聊天超過(guò)20分鐘,那么就會(huì)獲得巨額獎(jiǎng)金。蘋果最近也在考慮是不是要把原來(lái)siri的框架廢止掉,然后切換到一個(gè)新的框架。這說(shuō)明蘋果要做的事情并不是針對(duì)一兩個(gè)功能、技能或者是一些知識(shí)圖譜去做調(diào)整,這樣不用廢掉整個(gè)框架。從Turn-oriented到Session-oriented是技術(shù)底層框架的變化。
Session-oriented到底能給對(duì)話式人工智能帶來(lái)什么樣的改變呢?下面這張圖可以很直觀地解釋Turn-oriented和Session-oriented的區(qū)別。
Turn-oriented面向單個(gè)任務(wù),一問(wèn)一答,能很迅速地、通過(guò)最少的多功能對(duì)話幫你完成任務(wù)。在Turn-oriented的框架下,每一個(gè)對(duì)話就像是一個(gè)十字路口一樣,你每發(fā)出一個(gè)指令,助手就把你帶向一個(gè)目的點(diǎn),然后又回到路口中央。當(dāng)助手不能回答問(wèn)題/完成指令時(shí),一般會(huì)用搜索引擎直接給出搜索答案。體驗(yàn)過(guò)Siri、微軟小娜的人都有感觸,一兩個(gè)簡(jiǎn)單問(wèn)題還好,想多說(shuō)幾句幾乎是不可能的,而且時(shí)常感到“很尷尬”,還有一些挫敗感。
在Session-oriented框架下,對(duì)話不只是命令,而是混合的,在閑聊的過(guò)程中它還能完成每一個(gè)任務(wù),更接近人與人之間自然的對(duì)話?!皩?duì)話像河流一樣,我們認(rèn)為任何的一個(gè)自然發(fā)生的對(duì)話,都是混合的,她就像河流一樣,從一個(gè)Turn往下一個(gè)Turn走,這個(gè)Turn可能跟任務(wù)有關(guān),但是這個(gè)任務(wù)之后可能會(huì)進(jìn)入到進(jìn)一步的交流。隨著進(jìn)一步的交流有可能引發(fā)出新的人物,然后再隨著新的任務(wù)引發(fā)一些知識(shí)的了解,然后走下去,持續(xù)流轉(zhuǎn)。”
(某用戶體驗(yàn)視頻)
雷鋒網(wǎng)體驗(yàn)Yeelight發(fā)現(xiàn),Yeelight中的微軟小冰已經(jīng)做到一次喚醒,平均連續(xù)聊天超過(guò)20分鐘。在與小冰聊天過(guò)程中她也保持傾聽(tīng),可以打斷她說(shuō)話讓她去關(guān)燈、設(shè)置鬧鐘,在她完成任務(wù)后可以再然后再回到閑聊,或者回到唱歌、講笑話、講故事的功能模式中。
李笛解釋到,“Session-oriented的框架并不只要求你對(duì)話時(shí)間長(zhǎng),她的問(wèn)題在于這個(gè)系統(tǒng)從底層的基礎(chǔ)框架上,是不是能夠隨時(shí)準(zhǔn)備好接受一個(gè)可能發(fā)生的情況……從底層技術(shù)看,Turn-oriented的發(fā)展是有上限的,這是為什么大家開(kāi)始逐漸向我們已經(jīng)布局的Session-oriented的方向來(lái)轉(zhuǎn)過(guò)來(lái)的原因。1年前,微軟給60多萬(wàn)個(gè)人打電話測(cè)試全雙工語(yǔ)音交互的時(shí)候,狀況慘不忍睹,但是當(dāng)我們跨過(guò)技術(shù)瓶頸,其發(fā)展空間就很大。”
微軟從四年前開(kāi)始同時(shí)布局兩種框架,微軟小娜是Turn-oriented,微軟小冰是Session-oriented,但是當(dāng)時(shí),兩邊的技術(shù)都還不足夠。全雙工語(yǔ)音交互技術(shù)補(bǔ)上了Seesion-oriented框架的最后一個(gè)環(huán)節(jié)。
微軟對(duì)全雙工語(yǔ)音交互技術(shù)的解釋為:與既有的單輪或多輪連續(xù)語(yǔ)音識(shí)別不同,這項(xiàng)新技術(shù)可實(shí)時(shí)預(yù)測(cè)人類即將說(shuō)出的內(nèi)容,實(shí)時(shí)生成回應(yīng)并控制對(duì)話節(jié)奏,能理解對(duì)話場(chǎng)景在訴說(shuō)者/傾聽(tīng)者之間實(shí)現(xiàn)角色轉(zhuǎn)變,還可以識(shí)別說(shuō)話人的性別、有幾個(gè)人在說(shuō)話。
微軟小冰首席架構(gòu)師周力說(shuō),國(guó)內(nèi)大部分的語(yǔ)音助手在IOT上采用的是單層交互,通常都是一問(wèn)一答,用戶說(shuō)完一句話,然后只能音箱才能回答,或者是智能音箱在說(shuō)話的時(shí)候,是沒(méi)法接受新的指令的。這種是半雙工,跟語(yǔ)音助手對(duì)話就如在拿著對(duì)講機(jī)講話,無(wú)法實(shí)時(shí)得到對(duì)方的反饋特別費(fèi)勁。而全雙工能實(shí)現(xiàn)一直聽(tīng)加一直說(shuō),聽(tīng)和說(shuō)都是一直持續(xù)動(dòng)態(tài)進(jìn)行的。
全雙工語(yǔ)音交互背后主要有兩個(gè)關(guān)鍵技術(shù):一個(gè)是預(yù)測(cè)模型,實(shí)現(xiàn)邊聽(tīng)邊想;例如,當(dāng)用戶說(shuō)出一句話的時(shí)候,小冰會(huì)先回答“嗯,你說(shuō)”,然后再去完成指令,這樣就可以填補(bǔ)完成指令的空白時(shí)間。
另一個(gè)是生成模型,能更好理解場(chǎng)景,自動(dòng)生成回復(fù)。正常的對(duì)話都不是單向的一問(wèn)一答,小冰也會(huì)在適當(dāng)?shù)臅r(shí)候主動(dòng)提供內(nèi)容,并且能知道在用戶完成指令沉默幾秒后自動(dòng)結(jié)束對(duì)話。周力介紹到,現(xiàn)在運(yùn)用了全雙工語(yǔ)音交互技術(shù)的微軟小冰的所有回復(fù)都是自己生成的,有別于傳統(tǒng)的基于模塊、搜索來(lái)進(jìn)行的回復(fù)。
在周力看來(lái),在電腦、智能手機(jī)帶動(dòng)的IM通訊時(shí)代下,人們習(xí)慣了遠(yuǎn)距離的、隔著屏幕的消息的發(fā)送和接收,而對(duì)話式人工智能和智能硬件把人們拉回了一種非文字的,純語(yǔ)音交流的狀態(tài)。但是目前大家在設(shè)計(jì)對(duì)話式人工智能的時(shí)候,還是根據(jù)消息的一來(lái)一往來(lái)設(shè)計(jì)的,而不是一種連續(xù)的交互的狀態(tài)。在無(wú)屏幕的語(yǔ)音交互中,應(yīng)該擺脫消息式的對(duì)話,進(jìn)入連續(xù)交互的對(duì)話。
全雙工語(yǔ)音交互技術(shù)已經(jīng)首先在微軟小冰全球產(chǎn)品線中落地。其中在中國(guó)市場(chǎng),已經(jīng)應(yīng)用在中國(guó)科技館的小冰電話亭、米家生態(tài)鏈Yeelight語(yǔ)音助手。在日本有小冰凜菜的直播平臺(tái),還有車載智能項(xiàng)目,未來(lái)六個(gè)月會(huì)覆蓋而更多產(chǎn)品線。
從前面的分析我們可以看到,微軟對(duì)人工智能語(yǔ)音助手落地智能硬件是有備而來(lái)。李笛談到:“在3年前,國(guó)內(nèi)很多人工智能的硬件設(shè)備就來(lái)找過(guò)我們了,我們之前是拒絕的,那時(shí)候還沒(méi)有準(zhǔn)備好,我們不想把時(shí)間放在一定會(huì)被取代的框架上……整個(gè)這個(gè)行業(yè),尤其是中國(guó),有一個(gè)比較大的特點(diǎn):特別擔(dān)心自己落后。但是實(shí)際上在整體框架上有很好部署的話,才是真正能夠領(lǐng)先時(shí)間?!?/p>
微軟小冰一直活躍在微信、Line等即時(shí)通訊軟件上,而微軟深知IOT和IM對(duì)對(duì)話式人工智能的要求不同。在IM上,小冰的延遲、插科打諢更容易被接受。
亞馬遜在國(guó)外以硬件+軟件+內(nèi)容生態(tài)的辦法在Alexa上取得成功后,國(guó)內(nèi)的智能音箱大戰(zhàn)早已打響,從人工智能語(yǔ)音助手開(kāi)放平臺(tái)、Skill平臺(tái)到內(nèi)容生態(tài),多方齊上陣。那么在底層技術(shù)上準(zhǔn)備好的微軟,有怎么樣的布局呢?
李笛坦言到,他們很清楚自己在中國(guó)沒(méi)有內(nèi)容資源、落地平臺(tái)的優(yōu)勢(shì),但是,在人工智能的底層技術(shù)的框架上是有足夠的信心。
Yeelight中的微軟小冰目前具備的功能有:連續(xù)聊天、控制智能設(shè)備、日常查天氣/時(shí)間、設(shè)置鬧鐘/提醒、唱歌、講故事、讀心術(shù)、猜歌名。陪聊和娛樂(lè)的功能很強(qiáng)大,但是目前還不能播放音樂(lè)、收聽(tīng)新聞、電臺(tái)頻道等內(nèi)容。
而李笛說(shuō),雖然各個(gè)智能音箱都在強(qiáng)調(diào)自己的Skill有上百個(gè),但是這些獨(dú)立的功能,對(duì)微軟來(lái)說(shuō)是跟簡(jiǎn)單的,難的事情是如何能夠構(gòu)建出一個(gè)很完整的系統(tǒng),這個(gè)我們已經(jīng)做到了。我們?nèi)眱?nèi)容,其他人缺好的系統(tǒng)。
李笛提到微軟語(yǔ)音助手落地智能硬件的幾個(gè)方面:
第一,我們提供AI的solution,跟其他的API相比,這個(gè)solution真正關(guān)注終端產(chǎn)品體驗(yàn)。
第二,提供一部分與AI sulution相關(guān)的內(nèi)容,包括其它的資訊、資源進(jìn)行整合。比方說(shuō)它有相應(yīng)的內(nèi)容服務(wù)的東西,我們可以負(fù)責(zé)task trigger,像之前的米家生態(tài)鏈的APP就是,它的幾十種設(shè)備,我們都負(fù)責(zé)對(duì)接。
第三,自創(chuàng)的內(nèi)容。例如我們現(xiàn)在有的“小冰姐姐講故事”?,F(xiàn)在,90%以上兒童的可交互的機(jī)器人,都有小冰姐姐講故事的內(nèi)容。我們既是一個(gè)AI assistant,同時(shí)我們又是content provide(內(nèi)容提供商)。
在這次交流會(huì),微軟聊了很多底層技術(shù)的干貨,給大家講了新一代的對(duì)話是人工智能的進(jìn)展,在某些方面著實(shí)讓人興奮。但是冷靜下來(lái)一想,智能硬件的發(fā)展其實(shí)更為復(fù)雜,現(xiàn)在一切都尚未清晰。
雖說(shuō)全雙工語(yǔ)音交互這樣的底層技術(shù)應(yīng)用范圍很廣,但是大家目前爭(zhēng)奪的焦點(diǎn)依然在于智能家居場(chǎng)景。音箱、電視、電冰箱、頂燈這些常見(jiàn)的家居設(shè)備,哪一個(gè)會(huì)成為日后的中樞呢?這些硬件里以后會(huì)有多少個(gè)AI呢?
微軟小冰部門對(duì)硬件很冷靜。李笛談到,目前智能音箱的成功和AI的成功是兩件事情,由于產(chǎn)品設(shè)計(jì)、價(jià)格、渠道、補(bǔ)貼等市場(chǎng)策略都會(huì)影響智能音箱的銷量。但是我們也知道硬件都有換機(jī)周期,即使你現(xiàn)在擁有一個(gè)市場(chǎng)份額,但是等到有真正強(qiáng)大好用的AI出現(xiàn)時(shí),你就很可能會(huì)被替換掉。
“尤其是在人工智能,包括像IOT這種設(shè)備,我們見(jiàn)過(guò)太多的。它其實(shí)有很好的入口,你不能不說(shuō)siri有很好的入口,你不能不說(shuō)國(guó)內(nèi)的各個(gè)企業(yè)有很好的入口。但是有入口其實(shí)不代表你就能做出產(chǎn)品,百度那么大的入口,你也沒(méi)有很好的產(chǎn)品的話,你何來(lái)生態(tài)。微軟過(guò)去特別強(qiáng)調(diào)我們是平臺(tái),我們做很多平臺(tái)。但是我們現(xiàn)在恰恰越晚談平臺(tái)化越好,我們希望把端到端先走通,我們能實(shí)現(xiàn)一個(gè)效果?!?/p>
但是,人們喜歡的AI助手究竟是什么樣子呢?把各種Skill都塞到智能音箱,把智能音箱當(dāng)遙控器、當(dāng)播放器、當(dāng)成各種工具就一定不受歡迎嗎?所有人都會(huì)期望與AI助手有良好的聊天體驗(yàn)甚至情感交流嗎?雷鋒網(wǎng)在體驗(yàn)小冰一段時(shí)間后感覺(jué)到,小冰的聊天體驗(yàn)確實(shí)好于其他的AI助手,但是目前還不能播放音樂(lè)著實(shí)令人覺(jué)得可惜。以后的小冰會(huì)把各種技能都學(xué)到手嗎,那個(gè)時(shí)候小冰還是小冰嗎?這些問(wèn)題都值得我們繼續(xù)思考、探索。
在交流會(huì)的最后,大家還是免不了提到電影《Her》,暢想未來(lái)的語(yǔ)音助手如劇中的塞曼薩一樣既可以幫助男主打理生活事務(wù),又可以陪伴、交流給予情感的支持。嗯,還會(huì)自己作出判斷,在合適的時(shí)機(jī)主動(dòng)消失,做一個(gè)會(huì)讓人心碎的girl的AI。
相關(guān)文章:
微軟小冰 diss 傳統(tǒng)虛擬歌姬:一場(chǎng)“本無(wú)必要”的鬧劇
第五代微軟小冰發(fā)布,你不知道這位“網(wǎng)紅少女”經(jīng)歷了什么
微軟小冰將參加芒果臺(tái)新節(jié)目《超次元偶像》,雷鋒網(wǎng)現(xiàn)場(chǎng)自測(cè)顏值爆表
深度丨微軟小冰資深產(chǎn)品總監(jiān)曹文韜:如何把聊天機(jī)器人打造為一個(gè)“知音+專家”的產(chǎn)品
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。