3
11 月 25 日,訊飛還是沒能打破一個“魔咒”——逢發(fā)布會股價必跌。訊飛員工向雷鋒網(wǎng)打趣道,直播的時候有人發(fā)彈幕說,快別直播啦,去看看你們的股價吧。另一名訊飛的員工則問,“這到底是什么原理呢?”實際上沒人說得清楚,再加上每次股價都會反彈,所以也沒人細究。
今年的發(fā)布會地點還是在國家會議中心的一層大廳,理論上這里能坐 1500 人,但今年的報名人數(shù)超過了 3500,所以現(xiàn)場站著聽課的人不在少數(shù),會議開始后半小時還聽見門口的安保厲聲道:“只讓出不讓進,工作人員也不行。”
總之,現(xiàn)場熱鬧非凡,人們都很想知道:在訊飛眼中,跟進人工智能的正確姿勢到底應(yīng)該是什么樣子。
為時 4 個小時的發(fā)布會,訊飛連發(fā)了七款產(chǎn)品:多語種實時翻譯技術(shù)、萬物互聯(lián)輸入法、智能家居、智能車載、智慧教育、智能服務(wù)機器人,以及個性化語音合成技術(shù)。用科大訊飛董事長劉慶峰的話說:“都是絕對的黑科技?!?br/>
眾所周知,在偌大的會場演示語音技術(shù)算得上一種“自殺行為”,在此栽過跟頭的廠商不計其數(shù),但在發(fā)布會當天,訊飛的每個演示都堪稱完美,現(xiàn)場驚嘆連連。甚至有那么一瞬間讓人產(chǎn)生一種錯覺,電影《Her》中的場景已經(jīng)離現(xiàn)實不遠。
多語種實時翻譯技術(shù)是演示重點之一,無論是哪位演講者登臺,左右兩邊的大屏幕上總是實時顯示他所說的每一句話(中文),準確率極高。另外,英語,日語,韓語,維吾爾族語的翻譯也在實時進行。
“這不科學(xué),”我向訊飛的員工表示質(zhì)疑,“我用過你們的錄音寶,機器識別的準確率基本上屬于不能用的水平?!彼f:“現(xiàn)在錄音寶的識別率已經(jīng)提高了不少,只不過的確還比不上現(xiàn)場的演示效果。”問題的關(guān)鍵是拾音,他補充道:“現(xiàn)場的演示實際上一套完整的‘訊飛聽見’系統(tǒng),你看不到的是,我們在臺下放了 8 個麥克風(fēng)?!?/p>
聲學(xué)博士錢晨曾告訴雷鋒網(wǎng),如果想把硬件產(chǎn)品的拾音做好,至少需要兩個麥克風(fēng)以上。言外之意,麥克風(fēng)的數(shù)量與拾音效果呈正相關(guān)關(guān)系。既然現(xiàn)場有 8 個麥克風(fēng)作陪,那“驚嘆指數(shù)”顯然是要打折扣的。
另一款在現(xiàn)場掀起高潮的產(chǎn)品是被稱為中英互譯神器的“曉譯翻譯機”。演示的兩人一人說中文,一人說英語,曉譯翻譯機幾乎無延時地將對話內(nèi)容互譯,并用非常人性化的聲音讀了出來。
毫無疑問,這款產(chǎn)品的實用價值很高,如果復(fù)雜的對話也能達到演示的準確率——100%,曉譯翻譯機儼然就是一個貼身翻譯。
看到這里,現(xiàn)場很多人心中基本上就剩下兩個問題:這東西賣多少錢?什么時候上市?可惜這兩個問題訊飛都沒有給出答案,雷鋒網(wǎng)能得到內(nèi)部消息也只是:“還沒量產(chǎn),不知道什么時候上市?!?/p>
訊飛員工毫不諱言公司并不太擅長做電子消費品,并多次向雷鋒網(wǎng)強調(diào):“硬件是個坑?!钡跁宰g翻譯機的產(chǎn)品形態(tài),量產(chǎn)的難點顯然不在硬件。元器件——麥克風(fēng)、芯片等——都是現(xiàn)成的,又沒有使用特殊的造型和材料,所以最讓硬件廠商頭疼的定制件對曉譯翻譯機似乎也不成問題。合理的推測是,其軟件還需要進一步優(yōu)化。
換句話說,訊飛想讓真正的翻譯官下崗,還為時尚早。同理適用于同聲傳譯。
真正讓人想起電影《Her》的倒不是以上“黑科技”,而是這次發(fā)布會上“最不正經(jīng)”的一款產(chǎn)品——個性化語音合成。
最開始演示時,攝像頭對準了臺下的錘子科技 CEO 羅永浩,老羅靦腆的笑著,和全場觀眾一起聽著由訊飛合成的“老羅的聲音”。從效果來看,合成的老羅已快逼近以假亂真的地步,所以在現(xiàn)場的哄笑聲中,雷鋒網(wǎng)記者的朋友圈也被“羅永浩為您朗讀”刷屏了。
訊飛工作人員告訴雷鋒網(wǎng),合成只需錄入一個人的數(shù)個音節(jié),完成之后便可隨意點播,歡樂程度與被錄入者的可識別度,錄入的音節(jié)數(shù)成正比。
在很多人(甚至包括訊飛自己的員工)看來,這只是個調(diào)節(jié)氣氛的功能,但實際上,訊飛絕不會為了鬧著玩研發(fā)一款新產(chǎn)品。
還記得在電影《Her》里,男主角西奧多第一次被人工智能震驚的場景么?斯嘉麗扮演的女主角薩曼莎一發(fā)聲,西奧多便感覺很怪異,他說:“你看上去就像真人,但其實只是電腦發(fā)出的聲音,太奇怪了?!彼_曼莎安慰他:“我能理解你作為一個正常人,在洞察力方面的局限性,你會習(xí)慣的?!?/p>
編劇的這一設(shè)定非常講究,參考的是恐怖谷效應(yīng)。斯嘉麗的表演也很出彩,并憑此片成為了羅馬電影節(jié)史上首位沒有一個鏡頭的最佳女主角。英特爾數(shù)據(jù)中心事業(yè)部副總裁、計算機架構(gòu)專家、神經(jīng)系統(tǒng)科學(xué)家 Naveen Rao 曾告訴雷鋒網(wǎng)記者,《Her》是他個人最欣賞的人工智能電影。但如果沒有“看上去就像真人”這一點,欣賞程度顯然要大打折扣。
后記
也許是發(fā)布會耗時太久,再加上演講者的水平參差不齊,到了發(fā)布會后半段,原本擁擠不堪的會場空曠了很多?,F(xiàn)場的工作人員顯然習(xí)慣了這種狀況,各司其職數(shù)小時之后,他們依然非常興奮。
這不是訊飛的尷尬,他們以技術(shù)立足,在業(yè)內(nèi)有口皆碑,作為合作伙伴,華為消費者業(yè)務(wù) CEO 余承東甚至缺席華為集團財年預(yù)算會議來捧場。
但我依然好奇那些目光炙熱的觀眾是否滿載而歸,就像在發(fā)布會前跟我說,“就想弄明白訊飛是怎么從一家語音輸入公司變成一家人工智能公司”的同事,發(fā)布會結(jié)束后他仍一臉茫然。這是個值得深究的問題,但顯然,這也并不適合在這種場合講。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。