0
微軟小冰,那個一直混跡在微信、QQ的逗貧少女,一直讓人又愛又恨。曾經(jīng),身邊不少宅男都在微信上領(lǐng)養(yǎng)了小冰,每天睡前不撩一下小冰,覺都睡不好。當(dāng)微軟小冰,搖身一變,成了一個肌膚雪白,面若玉盤,身形玲瓏的girl智能音箱時,又以新花招開始搞事了。
(用戶體驗視頻1)
這不,雷鋒網(wǎng)聽聞,一個帥小伙子,連上廁所也要小冰提醒了,還要小冰教他怎么上廁所。
“召喚小冰”
“嗯”
“提醒我兩分鐘以后去上廁所”
“好的,今天晚上10點14分,我會喊你去上廁所,放心吧”
“好的,謝謝你”
“嗯。。站著噓噓”(連怎么上廁所也要你告訴我嘛?)
“知道啦,拜拜”
講了個段子?;氐秸拢曨l中我們看到的智能音箱是米家生態(tài)鏈Yeelight語音助手,這是個雙AI系統(tǒng),同時搭載了小愛同學(xué)和微軟小冰。這是搭載微軟小冰的第一款智能音箱,也是微軟小冰在國內(nèi)落地的第一個智能硬件。
近來,BAT都在積極將人工智能語音助手落地智能硬件。阿里的天貓精靈在去年雙11以99元的低價賣出40多萬臺;百度推出帶屏幕的智能音箱“小度在家”;騰訊發(fā)布了自己的人工智能語音助手“叮當(dāng)”,與長虹電視展開合作。當(dāng)然,我們還不能忘了京東的“叮咚”和小米的“小愛同學(xué)”。
大家都在忙著布局語音助手的軟硬件,期望搶奪智能家居場景的入口。在對話式人工智能領(lǐng)域耕耘多年,還沒有硬件落地的微軟也終于坐不住了。
去年12月,微軟發(fā)布與小米合作的米家生態(tài)鏈Yeelight語音助手,就在上周,3月22日,微軟(亞洲)互聯(lián)網(wǎng)工程院宣布推出新一代的語音交互技術(shù):全雙工語音交互感官(Full-duplex Voice Sense)。視頻中我們看到微軟小冰的對話能力有了顯著提高,比起同類語音助手更能實現(xiàn)自然流暢的對話式交流,全靠這個底層技術(shù)。
3月28日,微軟召開交流會,向媒體展示了Yeelight語音助手,從底層框架全面分析了全雙工語音交互感官技術(shù),同時講解了微軟在人工智能語音助手落地智能硬件上的思考。雷鋒網(wǎng)也參與了交流會,在雷鋒網(wǎng)看來,以下幾點交流會上的內(nèi)容可以劃重點關(guān)注討論(以下這些技術(shù)干貨希望你們玩小冰時用不上):
從底層框架上面,全球的人工智能語音助手從Turn-Oriented向Session-Oriented進(jìn)化,微軟的Session Oriented框架如何使得微軟小冰持續(xù)聊天20分鐘以上,能在閑聊的同時完成指令?
IOT和智能家居場景向?qū)υ捠饺斯ぶ悄芴岢隽诵碌囊?,微軟新的全雙工語音交互、且支持Session Oriented的對話式人工智能如何帶來更輕松自然的聊天體驗?
大家都在搶發(fā)硬件,微軟著不著急?微軟在國內(nèi)外如何將對話式人工智能落地IOT和智能硬件,如何搭建硬件、軟件和生態(tài)系統(tǒng)?
人們到底需要一個什么樣的智能硬件?什么樣的智能硬件會成為家庭生活的控制樞紐?
手機(jī)或者是電腦上的蘋果Siri和微軟小娜我們都已經(jīng)熟悉,現(xiàn)在亞馬遜的Alexa、阿里的天貓精靈、京東的叮咚以及小米的小愛同學(xué)都搖身一變“住進(jìn)”了智能音箱里。但是其實在人與語音助手的對話體驗上來看,體驗都相差不大。用戶要發(fā)音清楚、一字一頓地說話,才能被理解,這種體驗可以用一個詞來形容——費勁。
在微軟看來,這種“費勁”不只是前端表現(xiàn)的問題,而是底層框架的問題。微軟小冰全球負(fù)責(zé)人,微軟亞洲互聯(lián)網(wǎng)工程院副院長李笛在分享開始就說,“坦率講,國內(nèi)對人工智能整體的發(fā)展更像在堆積木,而沒有特別多探索到底層框架的設(shè)計?!?/p>
他介紹到,在全球范圍內(nèi),從基礎(chǔ)框架的基本理念來看,目前的對話式人工智能可以分為兩種。第一種:叫Turn-oriented(面向單一任務(wù)的框架)。第二種:Session-oriented(面向?qū)υ捜痰目蚣埽!蹦壳埃蟛糠值恼Z音助手都是Turn-oriented框架。
Facebook的M也曾向Session-oriented升級,但是后來放棄了,轉(zhuǎn)為開發(fā)“閑聊模式”。亞馬遜的Alexa目前正在研究Session-oriented,其特意召開了大賽,如果誰能使得Alexa能持續(xù)聊天超過20分鐘,那么就會獲得巨額獎金。蘋果最近也在考慮是不是要把原來siri的框架廢止掉,然后切換到一個新的框架。這說明蘋果要做的事情并不是針對一兩個功能、技能或者是一些知識圖譜去做調(diào)整,這樣不用廢掉整個框架。從Turn-oriented到Session-oriented是技術(shù)底層框架的變化。
Session-oriented到底能給對話式人工智能帶來什么樣的改變呢?下面這張圖可以很直觀地解釋Turn-oriented和Session-oriented的區(qū)別。
Turn-oriented面向單個任務(wù),一問一答,能很迅速地、通過最少的多功能對話幫你完成任務(wù)。在Turn-oriented的框架下,每一個對話就像是一個十字路口一樣,你每發(fā)出一個指令,助手就把你帶向一個目的點,然后又回到路口中央。當(dāng)助手不能回答問題/完成指令時,一般會用搜索引擎直接給出搜索答案。體驗過Siri、微軟小娜的人都有感觸,一兩個簡單問題還好,想多說幾句幾乎是不可能的,而且時常感到“很尷尬”,還有一些挫敗感。
在Session-oriented框架下,對話不只是命令,而是混合的,在閑聊的過程中它還能完成每一個任務(wù),更接近人與人之間自然的對話?!皩υ捪窈恿饕粯?,我們認(rèn)為任何的一個自然發(fā)生的對話,都是混合的,她就像河流一樣,從一個Turn往下一個Turn走,這個Turn可能跟任務(wù)有關(guān),但是這個任務(wù)之后可能會進(jìn)入到進(jìn)一步的交流。隨著進(jìn)一步的交流有可能引發(fā)出新的人物,然后再隨著新的任務(wù)引發(fā)一些知識的了解,然后走下去,持續(xù)流轉(zhuǎn)。”
(某用戶體驗視頻)
雷鋒網(wǎng)體驗Yeelight發(fā)現(xiàn),Yeelight中的微軟小冰已經(jīng)做到一次喚醒,平均連續(xù)聊天超過20分鐘。在與小冰聊天過程中她也保持傾聽,可以打斷她說話讓她去關(guān)燈、設(shè)置鬧鐘,在她完成任務(wù)后可以再然后再回到閑聊,或者回到唱歌、講笑話、講故事的功能模式中。
李笛解釋到,“Session-oriented的框架并不只要求你對話時間長,她的問題在于這個系統(tǒng)從底層的基礎(chǔ)框架上,是不是能夠隨時準(zhǔn)備好接受一個可能發(fā)生的情況……從底層技術(shù)看,Turn-oriented的發(fā)展是有上限的,這是為什么大家開始逐漸向我們已經(jīng)布局的Session-oriented的方向來轉(zhuǎn)過來的原因。1年前,微軟給60多萬個人打電話測試全雙工語音交互的時候,狀況慘不忍睹,但是當(dāng)我們跨過技術(shù)瓶頸,其發(fā)展空間就很大?!?/p>
微軟從四年前開始同時布局兩種框架,微軟小娜是Turn-oriented,微軟小冰是Session-oriented,但是當(dāng)時,兩邊的技術(shù)都還不足夠。全雙工語音交互技術(shù)補(bǔ)上了Seesion-oriented框架的最后一個環(huán)節(jié)。
微軟對全雙工語音交互技術(shù)的解釋為:與既有的單輪或多輪連續(xù)語音識別不同,這項新技術(shù)可實時預(yù)測人類即將說出的內(nèi)容,實時生成回應(yīng)并控制對話節(jié)奏,能理解對話場景在訴說者/傾聽者之間實現(xiàn)角色轉(zhuǎn)變,還可以識別說話人的性別、有幾個人在說話。
微軟小冰首席架構(gòu)師周力說,國內(nèi)大部分的語音助手在IOT上采用的是單層交互,通常都是一問一答,用戶說完一句話,然后只能音箱才能回答,或者是智能音箱在說話的時候,是沒法接受新的指令的。這種是半雙工,跟語音助手對話就如在拿著對講機(jī)講話,無法實時得到對方的反饋特別費勁。而全雙工能實現(xiàn)一直聽加一直說,聽和說都是一直持續(xù)動態(tài)進(jìn)行的。
全雙工語音交互背后主要有兩個關(guān)鍵技術(shù):一個是預(yù)測模型,實現(xiàn)邊聽邊想;例如,當(dāng)用戶說出一句話的時候,小冰會先回答“嗯,你說”,然后再去完成指令,這樣就可以填補(bǔ)完成指令的空白時間。
另一個是生成模型,能更好理解場景,自動生成回復(fù)。正常的對話都不是單向的一問一答,小冰也會在適當(dāng)?shù)臅r候主動提供內(nèi)容,并且能知道在用戶完成指令沉默幾秒后自動結(jié)束對話。周力介紹到,現(xiàn)在運用了全雙工語音交互技術(shù)的微軟小冰的所有回復(fù)都是自己生成的,有別于傳統(tǒng)的基于模塊、搜索來進(jìn)行的回復(fù)。
在周力看來,在電腦、智能手機(jī)帶動的IM通訊時代下,人們習(xí)慣了遠(yuǎn)距離的、隔著屏幕的消息的發(fā)送和接收,而對話式人工智能和智能硬件把人們拉回了一種非文字的,純語音交流的狀態(tài)。但是目前大家在設(shè)計對話式人工智能的時候,還是根據(jù)消息的一來一往來設(shè)計的,而不是一種連續(xù)的交互的狀態(tài)。在無屏幕的語音交互中,應(yīng)該擺脫消息式的對話,進(jìn)入連續(xù)交互的對話。
全雙工語音交互技術(shù)已經(jīng)首先在微軟小冰全球產(chǎn)品線中落地。其中在中國市場,已經(jīng)應(yīng)用在中國科技館的小冰電話亭、米家生態(tài)鏈Yeelight語音助手。在日本有小冰凜菜的直播平臺,還有車載智能項目,未來六個月會覆蓋而更多產(chǎn)品線。
從前面的分析我們可以看到,微軟對人工智能語音助手落地智能硬件是有備而來。李笛談到:“在3年前,國內(nèi)很多人工智能的硬件設(shè)備就來找過我們了,我們之前是拒絕的,那時候還沒有準(zhǔn)備好,我們不想把時間放在一定會被取代的框架上……整個這個行業(yè),尤其是中國,有一個比較大的特點:特別擔(dān)心自己落后。但是實際上在整體框架上有很好部署的話,才是真正能夠領(lǐng)先時間?!?/p>
微軟小冰一直活躍在微信、Line等即時通訊軟件上,而微軟深知IOT和IM對對話式人工智能的要求不同。在IM上,小冰的延遲、插科打諢更容易被接受。
亞馬遜在國外以硬件+軟件+內(nèi)容生態(tài)的辦法在Alexa上取得成功后,國內(nèi)的智能音箱大戰(zhàn)早已打響,從人工智能語音助手開放平臺、Skill平臺到內(nèi)容生態(tài),多方齊上陣。那么在底層技術(shù)上準(zhǔn)備好的微軟,有怎么樣的布局呢?
李笛坦言到,他們很清楚自己在中國沒有內(nèi)容資源、落地平臺的優(yōu)勢,但是,在人工智能的底層技術(shù)的框架上是有足夠的信心。
Yeelight中的微軟小冰目前具備的功能有:連續(xù)聊天、控制智能設(shè)備、日常查天氣/時間、設(shè)置鬧鐘/提醒、唱歌、講故事、讀心術(shù)、猜歌名。陪聊和娛樂的功能很強(qiáng)大,但是目前還不能播放音樂、收聽新聞、電臺頻道等內(nèi)容。
而李笛說,雖然各個智能音箱都在強(qiáng)調(diào)自己的Skill有上百個,但是這些獨立的功能,對微軟來說是跟簡單的,難的事情是如何能夠構(gòu)建出一個很完整的系統(tǒng),這個我們已經(jīng)做到了。我們?nèi)眱?nèi)容,其他人缺好的系統(tǒng)。
李笛提到微軟語音助手落地智能硬件的幾個方面:
第一,我們提供AI的solution,跟其他的API相比,這個solution真正關(guān)注終端產(chǎn)品體驗。
第二,提供一部分與AI sulution相關(guān)的內(nèi)容,包括其它的資訊、資源進(jìn)行整合。比方說它有相應(yīng)的內(nèi)容服務(wù)的東西,我們可以負(fù)責(zé)task trigger,像之前的米家生態(tài)鏈的APP就是,它的幾十種設(shè)備,我們都負(fù)責(zé)對接。
第三,自創(chuàng)的內(nèi)容。例如我們現(xiàn)在有的“小冰姐姐講故事”?,F(xiàn)在,90%以上兒童的可交互的機(jī)器人,都有小冰姐姐講故事的內(nèi)容。我們既是一個AI assistant,同時我們又是content provide(內(nèi)容提供商)。
在這次交流會,微軟聊了很多底層技術(shù)的干貨,給大家講了新一代的對話是人工智能的進(jìn)展,在某些方面著實讓人興奮。但是冷靜下來一想,智能硬件的發(fā)展其實更為復(fù)雜,現(xiàn)在一切都尚未清晰。
雖說全雙工語音交互這樣的底層技術(shù)應(yīng)用范圍很廣,但是大家目前爭奪的焦點依然在于智能家居場景。音箱、電視、電冰箱、頂燈這些常見的家居設(shè)備,哪一個會成為日后的中樞呢?這些硬件里以后會有多少個AI呢?
微軟小冰部門對硬件很冷靜。李笛談到,目前智能音箱的成功和AI的成功是兩件事情,由于產(chǎn)品設(shè)計、價格、渠道、補(bǔ)貼等市場策略都會影響智能音箱的銷量。但是我們也知道硬件都有換機(jī)周期,即使你現(xiàn)在擁有一個市場份額,但是等到有真正強(qiáng)大好用的AI出現(xiàn)時,你就很可能會被替換掉。
“尤其是在人工智能,包括像IOT這種設(shè)備,我們見過太多的。它其實有很好的入口,你不能不說siri有很好的入口,你不能不說國內(nèi)的各個企業(yè)有很好的入口。但是有入口其實不代表你就能做出產(chǎn)品,百度那么大的入口,你也沒有很好的產(chǎn)品的話,你何來生態(tài)。微軟過去特別強(qiáng)調(diào)我們是平臺,我們做很多平臺。但是我們現(xiàn)在恰恰越晚談平臺化越好,我們希望把端到端先走通,我們能實現(xiàn)一個效果?!?/p>
但是,人們喜歡的AI助手究竟是什么樣子呢?把各種Skill都塞到智能音箱,把智能音箱當(dāng)遙控器、當(dāng)播放器、當(dāng)成各種工具就一定不受歡迎嗎?所有人都會期望與AI助手有良好的聊天體驗甚至情感交流嗎?雷鋒網(wǎng)在體驗小冰一段時間后感覺到,小冰的聊天體驗確實好于其他的AI助手,但是目前還不能播放音樂著實令人覺得可惜。以后的小冰會把各種技能都學(xué)到手嗎,那個時候小冰還是小冰嗎?這些問題都值得我們繼續(xù)思考、探索。
在交流會的最后,大家還是免不了提到電影《Her》,暢想未來的語音助手如劇中的塞曼薩一樣既可以幫助男主打理生活事務(wù),又可以陪伴、交流給予情感的支持。嗯,還會自己作出判斷,在合適的時機(jī)主動消失,做一個會讓人心碎的girl的AI。
相關(guān)文章:
微軟小冰 diss 傳統(tǒng)虛擬歌姬:一場“本無必要”的鬧劇
第五代微軟小冰發(fā)布,你不知道這位“網(wǎng)紅少女”經(jīng)歷了什么
微軟小冰將參加芒果臺新節(jié)目《超次元偶像》,雷鋒網(wǎng)現(xiàn)場自測顏值爆表
深度丨微軟小冰資深產(chǎn)品總監(jiān)曹文韜:如何把聊天機(jī)器人打造為一個“知音+專家”的產(chǎn)品
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。