5
本文作者: 游瑞 | 2015-09-09 16:54 |
這個年代,動不動就有人談?wù)撊斯ぶ悄?,就有?chuàng)業(yè)者跳出來說要做智能機(jī)器人,但結(jié)果卻只是紙上談兵,不了了之。小智音箱CEO何永對于AI的理解有著自己的看法,人工智能最終的落地是在人機(jī)交互上面,而目前人機(jī)交互最直接的方式應(yīng)該是語音識別,語音交互的方式既接地氣,人人都能接受,又能實(shí)實(shí)在在的解決實(shí)際問題。
能聽又能說,能想還會做的機(jī)器人是聚熵智能最想做出的產(chǎn)品,何永帶領(lǐng)的聚熵團(tuán)隊(duì)將第一代產(chǎn)品與音樂做了深度結(jié)合,注入了很多機(jī)器人屬性的東西在里面,雖然看上去就像一個普通的音箱,但它卻具備了能與人進(jìn)行語音溝通的能力,能完成用戶下達(dá)的各類語音控制,甚至還能通過控制紅外模塊去遙控家中的家電。
關(guān)于CEO何永,小智“超級音箱”的“奶爸",誰能想到他之前是在中科院搞基因工程的,做生物信息學(xué)研究,據(jù)他本人介紹就是在人工智能的技術(shù)上,利用計(jì)算機(jī)的手段與技術(shù)去研究分析人體的DNA。至于為什么現(xiàn)在又開始做智能硬件,一方面是因?yàn)樗髮W(xué)所讀的專業(yè)確實(shí)計(jì)算機(jī),自己對這塊饒有興趣,另外就是基于對未來的判斷,他覺得未來有兩塊領(lǐng)域會很有發(fā)展,一塊是人工智能,一塊是納米醫(yī)學(xué)。而醫(yī)學(xué)門檻太高,目前沒什么可能。
“可能5年前10年前,人工智能這個概念就喊得很嗨了,實(shí)際上的話,在08、09年之前,這個領(lǐng)域發(fā)展很慢,它只是最近這幾年發(fā)展非???。我推斷在未來5到10年,人工智能能在很多領(lǐng)域能夠給大家的生活的帶來實(shí)質(zhì)性的變化。”
何永:其實(shí)這個產(chǎn)品一開始不叫“音箱”,應(yīng)該叫“機(jī)器人”。但是因?yàn)樗鸵魳方Y(jié)合了,所以我們就把它叫“音箱”,當(dāng)然這并不代表我們以后的產(chǎn)品還會是音箱的形式出現(xiàn)。此前還做過一款軟件產(chǎn)品(智能360),現(xiàn)在也還在做,為什么既做軟件還要去做硬件呢?因?yàn)槲覀冇X得做硬件可以讓軟件更好的落地。
考慮做硬件是我們分析了很多家電產(chǎn)品,像電視、空調(diào)、路由器等很多東西,最后還是選擇了音箱作為載體,因?yàn)橐粝渚哂辛藥讉€特征,能很好的結(jié)合人工智能。
首先,家庭里面需要與語音結(jié)合的產(chǎn)品并不多,比如說空調(diào),電視,這類產(chǎn)品是有必要的。但是路由器就沒有必要,平時放在拐角處,語音接收不方便,也不便于移動。還有燈、插座開關(guān),也可以結(jié)合語音,但是運(yùn)用起來很簡單,不能真正把人工智能的東西運(yùn)用起來。所以我們分析了很產(chǎn)品之后,發(fā)現(xiàn)只有音箱是最合適的。
何永:首先,語音可以很好地提升用戶體驗(yàn),以前音箱是用手機(jī)控制播放,現(xiàn)在可以跟它說話就能播放,這個體驗(yàn)就已經(jīng)提升了。
第二個,它是真的帶有人工智能的價值在里面,因?yàn)橐粝洳幌耖_關(guān),開燈、關(guān)燈兩個操作就沒了。音箱的交互可以有很多種形式,比如點(diǎn)歌時,你可以和它說“來首周杰倫的歌”、“來首青花瓷”、“來個鋼琴曲”等等,可以有很多種說法,這樣就可以把人工智能的真正價值,也就是我們公司的價值體現(xiàn)出來。
最后,音箱本身能說話。比如說燈的交互只有兩種,但是它不能說話,所以你無法知道你說的話它是不是很好地執(zhí)行了。但如果我和小智說“把臥室的空調(diào)打開”,它就會跟你反饋說“好的,已經(jīng)給你打開了”,所以產(chǎn)品本身能說話可以解決很多問題。
基于這三點(diǎn)我們選擇了音箱為載體去做這些事情,但不代表我們只能做音箱,我們給產(chǎn)品注入了許多的機(jī)器人的屬性:你可以直接和它對話交流,和它聊天,它也可以算“1+1+1=?”,小孩可以問它百科知識。
雷鋒網(wǎng):語音交互難點(diǎn)在哪?
何永:做語音交互沒有想象中的那么簡單,里面有很多問題需要解決:
第一個麥克控制鏈技術(shù),我們做的是遠(yuǎn)場交互,手機(jī)上的語音識別技術(shù)雖然很成熟但其實(shí)屬于近場識別,拿到三五米遠(yuǎn)可能就完全不能用。
第二就是基于麥克風(fēng)的降噪,這里要考慮到如何把環(huán)境噪聲去掉,再把人聲放大。
第三就是當(dāng)放音樂的時候怎么去進(jìn)行語音控制,這里面有個很大的問題叫回音對焦,就是說設(shè)備播放音樂的時候,人聲很容易被掩蓋,這個時候改如何去進(jìn)行語音識別,是個技術(shù)難題。
第四就是喚醒機(jī)制,遠(yuǎn)距離對話首先要喚醒設(shè)備。原來的喚醒技術(shù)誤喚醒率高,平時無意中說出來的話可能就是觸發(fā)詞,就會誤觸發(fā)機(jī)器人說話,所以這也是個問題。
第五個就是遠(yuǎn)場的語音識別,不僅是識別,還包括了對語調(diào)進(jìn)行訓(xùn)練,不是手機(jī)上簡單的語音識別。
第六個就是語義的理解。同樣做智能語音識別,與小i機(jī)器人不同的是,我們做2C,他們做2B。他們的技術(shù)用于企業(yè)客服,數(shù)據(jù)是有限的。但是隨著人工智能的發(fā)展,數(shù)據(jù)反而會越重要,相同的技術(shù)用于不同的領(lǐng)域,起到的結(jié)果是完全不一樣的。
何永:為什么做語音智能音箱就我們一家呢?因?yàn)閺募夹g(shù)到最后的產(chǎn)品實(shí)現(xiàn)這中間要經(jīng)過很多環(huán)節(jié),它不是簡單地把東西往里塞,里面有很多東西需要驗(yàn)證。
把技術(shù)與產(chǎn)品結(jié)合需要一個非常長的時期,一般要三到五年的時間,主要有4個環(huán)節(jié):第一個,技術(shù)本身的理論驗(yàn)證,然后到技術(shù)的工程實(shí)現(xiàn),然后第三個就是和產(chǎn)品結(jié)合,第四個集成產(chǎn)品。
何永:對于傳統(tǒng)的音箱來說,音質(zhì)和外觀最重要,但對智能產(chǎn)品來說,這兩個是基礎(chǔ),還有第三個與第四個:交互體驗(yàn)與音樂源。我覺得交互體驗(yàn)是在這幾點(diǎn)中最重要的,我們一代的價格是399,所以我們的音質(zhì)也不和市面上1000以上的音箱去比,這里可以說明下的是,低價位的音響設(shè)備對普通消費(fèi)者來說音質(zhì)存在的細(xì)微差異基本聽不出來,只有更高價位的音箱和專業(yè)的聽音師才能聽出差異。即便如此,還是不排除我們第二代的產(chǎn)品會在這個價格的基礎(chǔ)上做到更好的音質(zhì)。
何永希望能利用小智超級音箱來連接智能硬件,通過語音能夠控制家里的一切家電。人工智能與音箱的結(jié)合,可以認(rèn)為是何永對人工智能布局智能家庭的一次嘗試,他想要做的可能還遠(yuǎn)不止于此。
比如最后談到了智能機(jī)器人Pepper的時候,何永認(rèn)為Pepper更多是做企業(yè)服務(wù),而未來他們的方向會是家庭服務(wù),他也甚至指出了這里面存在亟待解決的兩個難點(diǎn):第一點(diǎn),真正的智能化,第二點(diǎn)就是硬件本身能做的事情的成本降低了。
小智,做的不僅是超級音箱,他可能還有更大的“陰謀”。
小智招賢納士,求賢若渴,歡迎有志之士簡歷猛砸郵件:hrd@360iii.com。
雷鋒網(wǎng)先鋒志(公眾號:vangzine)致力于發(fā)掘更多產(chǎn)品和技術(shù)創(chuàng)新驅(qū)動的創(chuàng)業(yè)項(xiàng)目。如果你也在創(chuàng)業(yè),如果你也認(rèn)同產(chǎn)品和技術(shù)是改變世界的中堅(jiān)力量,歡迎通過我們向業(yè)界介紹自己。聯(lián)系方式:startup@leiphone.com,24小時內(nèi)會收到我們的回復(fù)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。