思必馳技術(shù)分享：車載語音交互的需求及挑戰(zhàn)

本文作者：趙青暉

2016-07-21 17:42

導(dǎo)語：VUI的概念，也就是語音交互界面（Voice User Interface）。

對于一個司機來說，汽車智能化最重要的一點，就是在開車的時候不用手也能做一些駕駛以外的操作，而這一行為的實現(xiàn)多半依賴語音技術(shù)的發(fā)展。目前國內(nèi)做語音語義相關(guān)的公司也都注意到了車載領(lǐng)域的前景，紛紛針對這個領(lǐng)域做起了語音交互方案，思必馳就是其中一家。

昨天，思必馳在深圳做了一場產(chǎn)品體驗沙龍，用他們的話來說，就是一場“裸技術(shù)分享會”，在會上向大家展示了他們最新的車載對話操作系統(tǒng)AIOS的3.0版本，通過這次技術(shù)分享，也讓大家了解了一下語音交互系統(tǒng)對車載領(lǐng)域的重要性。

VUI語音交互界面的概念

在汽車駕駛環(huán)境里，因安全因素限制，駕駛員在行駛過程中能做的額外操作并不多，在傳統(tǒng)汽車中，除了駕駛操作之外，像接聽電話、娛樂等功能的操作都被集成在了方向盤中，這樣讓駕駛員手不離開方向盤就能夠完成這些事情，但是隨著“智能汽車”概念的興起，網(wǎng)絡(luò)社交、智能導(dǎo)航等功能也出現(xiàn)在了汽車中，最開始這些功能都被塞進了車機、智能后視鏡等設(shè)備中，但是多數(shù)需要駕駛員手動操作，這樣就為處于駕駛狀態(tài)的人帶來了非常大的不便，就此問題，人們發(fā)現(xiàn)，語音操作變成了剛需。

在語音操作剛剛興起的時候，算法十分簡陋，識別率低且只能完成及其簡單的操作，這樣完全不能稱之為“智能”，在思必馳技術(shù)分析沙龍的現(xiàn)場，思必馳產(chǎn)品總監(jiān)張巖在現(xiàn)場提到了一個VUI的概念，也就是語音交互界面（Voice User Interface），這個概念說白了就是把二維的屏幕操作界面變成了由語音系統(tǒng)構(gòu)成的操作組織。

在車載領(lǐng)域，用戶操作從最初的無界面到現(xiàn)在的GUI（圖形用戶界面），正在朝VUI方向發(fā)展，這也是趨勢所在，用最有效的語音引導(dǎo)方式幫助用戶完成操作，這樣不但能夠保證駕駛的安全性、大幅度節(jié)省人力成本，還能夠?qū)⒂脩魪目菰铩⒎爆嵉鸟{乘活動中解放出來。這種VUI理念除了在車載領(lǐng)域之外，還可與智能家居、智能機器人等領(lǐng)域的語音交互中去。

VUI在車載領(lǐng)域的需求及挑戰(zhàn)

既然是交互界面，就要保證操作的準(zhǔn)確、便捷、高效，人們在下達語音命令的時候，要保證機器能夠快速的反饋和執(zhí)行，這一點在車載系統(tǒng)中尤為重要，因為駕駛過程中，對智能車載系統(tǒng)的整個操作流程全都需要語音來實現(xiàn)，目前來看，需求大概在以下幾點。

導(dǎo)航中的快捷交互：

導(dǎo)航對于車載系統(tǒng)來說是絕對核心的功能，然而目前大部分導(dǎo)航還沒能實現(xiàn)語音控制，或者只實現(xiàn)了“語音查找目的”等簡單的功能，而在VUI中，駕駛員說：“我要去XXX地方”，機器應(yīng)該立即反應(yīng)并規(guī)劃路線，告訴駕駛員距離、預(yù)估時間等信息。在整個交互中，駕駛員也可以說明訴求，比如“躲避擁堵”“最短距離”等，說出訴求后，機器也會相應(yīng)的調(diào)整路線規(guī)劃。

跨領(lǐng)域打斷：

對于“與機器對話”這件事來說，讓人最苦惱的地方無疑就是機器笨又啰嗦，比如你問它一件事情，有時候它就會叨叨叨說一大堆的話，其實在這個過程中，駕駛員可能聽到一半就能理解機器在說什么了，但通常情況下，如果機器沒有說完，是不能去執(zhí)行下一個任務(wù)的，聽一個冷冰冰的機器音啰里八嗦上一大段，確實挺讓人不耐煩的，尤其對患有路怒癥的老司機及其不友好。

思必馳技術(shù)分享：車載語音交互的需求及挑戰(zhàn)

采用思必馳語音方案的智能后視鏡

而思必馳在這點上做了改進。在新版本的對話操作系統(tǒng)里，做了打斷功能，駕駛員在跟機器交流的時候，可以隨時打斷機器的說話，讓他去執(zhí)行其他任務(wù)，這種打斷還能在導(dǎo)航、音樂、電話、微信等功能里靈活轉(zhuǎn)換，不用返回主界面，無需再次喚醒，直接進行語音操控，讓機器做你臨時想做的事情。

合成音切換：

在機器語音這個方面，其實有個小細(xì)節(jié)值得大家關(guān)注一下。用過Siri的人都應(yīng)該了解，機器人說話大都是一個字一個字的蹦，不連貫的機器音讓人聽了想睡覺，除了標(biāo)準(zhǔn)的語音之外，做一些明星合成音，比如林志玲、郭德綱等，能夠增加不少的趣味性，思必馳活動的現(xiàn)場，他們也為大家演示了在這方面所做的工作。

思必馳技術(shù)分享：車載語音交互的需求及挑戰(zhàn)

語音現(xiàn)場合成

網(wǎng)絡(luò)社交功能：

社交操作在車載領(lǐng)域的比重確實不小，而打電話發(fā)短信這種社交方式對現(xiàn)代的網(wǎng)絡(luò)社交來說，肯定是不夠用的，而司機開車時用智能手機進行社交應(yīng)用的操作是非常危險的事情，所以把網(wǎng)絡(luò)社交應(yīng)用集成到車載系統(tǒng)中，并且全權(quán)用語音進行控制就顯得尤為重要。雷鋒網(wǎng)在思必馳技術(shù)分享會中，看到他們把微信集成到了車載系統(tǒng)中的演示，駕駛員可以在開車時，直接用語音喚醒微信，并說明給誰發(fā)，發(fā)什么內(nèi)容，發(fā)語音還是文字（文字是把語音轉(zhuǎn)成文字，不需要用戶手動打字），甚至在聊天時想約見，只要對方給你發(fā)個具體位置，系統(tǒng)會自動轉(zhuǎn)接到地圖上進行導(dǎo)航，非常方便。

思必馳技術(shù)分享：車載語音交互的需求及挑戰(zhàn)

除了上述剛需和新鮮功能之外，音樂電臺等娛樂方面的語音交互、路況查詢等實用的基礎(chǔ)功能也需要在VUI中實現(xiàn)，換句話說，車載語音操作要更智能，VUI就得像GUI一樣完全成熟才行。

語音交互確實是一項能夠提升人們操作體驗的工具，在無人駕駛汽車正式來臨之前，語音交互絕對是能夠提升車內(nèi)操作效率和駕駛員安全系數(shù)的神器，但是這一切都在整個語音系統(tǒng)的高精準(zhǔn)、高效率的前提下的，這個領(lǐng)域目前還只處在一個不太成熟的階段，還有很大的提升空間。相信在未來的各個領(lǐng)域，特別是車載這種需要語音輔助的地方，VUI在某種程度上一定會取代手動操作。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

趙青暉

編輯

關(guān)注互聯(lián)網(wǎng)內(nèi)容創(chuàng)作的一切。微信號：rockpen（*注明公司職位，否則不通過），請多指教。另有一公眾號：artbyte，專注扯犢子。

發(fā)私信

當(dāng)月熱門文章