5
本文作者: 游瑞 | 2015-09-09 16:54 |
這個年代,動不動就有人談論人工智能,就有創(chuàng)業(yè)者跳出來說要做智能機器人,但結果卻只是紙上談兵,不了了之。小智音箱CEO何永對于AI的理解有著自己的看法,人工智能最終的落地是在人機交互上面,而目前人機交互最直接的方式應該是語音識別,語音交互的方式既接地氣,人人都能接受,又能實實在在的解決實際問題。
能聽又能說,能想還會做的機器人是聚熵智能最想做出的產品,何永帶領的聚熵團隊將第一代產品與音樂做了深度結合,注入了很多機器人屬性的東西在里面,雖然看上去就像一個普通的音箱,但它卻具備了能與人進行語音溝通的能力,能完成用戶下達的各類語音控制,甚至還能通過控制紅外模塊去遙控家中的家電。
關于CEO何永,小智“超級音箱”的“奶爸",誰能想到他之前是在中科院搞基因工程的,做生物信息學研究,據(jù)他本人介紹就是在人工智能的技術上,利用計算機的手段與技術去研究分析人體的DNA。至于為什么現(xiàn)在又開始做智能硬件,一方面是因為他大學所讀的專業(yè)確實計算機,自己對這塊饒有興趣,另外就是基于對未來的判斷,他覺得未來有兩塊領域會很有發(fā)展,一塊是人工智能,一塊是納米醫(yī)學。而醫(yī)學門檻太高,目前沒什么可能。
“可能5年前10年前,人工智能這個概念就喊得很嗨了,實際上的話,在08、09年之前,這個領域發(fā)展很慢,它只是最近這幾年發(fā)展非???。我推斷在未來5到10年,人工智能能在很多領域能夠給大家的生活的帶來實質性的變化。”
何永:其實這個產品一開始不叫“音箱”,應該叫“機器人”。但是因為它和音樂結合了,所以我們就把它叫“音箱”,當然這并不代表我們以后的產品還會是音箱的形式出現(xiàn)。此前還做過一款軟件產品(智能360),現(xiàn)在也還在做,為什么既做軟件還要去做硬件呢?因為我們覺得做硬件可以讓軟件更好的落地。
考慮做硬件是我們分析了很多家電產品,像電視、空調、路由器等很多東西,最后還是選擇了音箱作為載體,因為音箱具有了幾個特征,能很好的結合人工智能。
首先,家庭里面需要與語音結合的產品并不多,比如說空調,電視,這類產品是有必要的。但是路由器就沒有必要,平時放在拐角處,語音接收不方便,也不便于移動。還有燈、插座開關,也可以結合語音,但是運用起來很簡單,不能真正把人工智能的東西運用起來。所以我們分析了很產品之后,發(fā)現(xiàn)只有音箱是最合適的。
何永:首先,語音可以很好地提升用戶體驗,以前音箱是用手機控制播放,現(xiàn)在可以跟它說話就能播放,這個體驗就已經(jīng)提升了。
第二個,它是真的帶有人工智能的價值在里面,因為音箱不像開關,開燈、關燈兩個操作就沒了。音箱的交互可以有很多種形式,比如點歌時,你可以和它說“來首周杰倫的歌”、“來首青花瓷”、“來個鋼琴曲”等等,可以有很多種說法,這樣就可以把人工智能的真正價值,也就是我們公司的價值體現(xiàn)出來。
最后,音箱本身能說話。比如說燈的交互只有兩種,但是它不能說話,所以你無法知道你說的話它是不是很好地執(zhí)行了。但如果我和小智說“把臥室的空調打開”,它就會跟你反饋說“好的,已經(jīng)給你打開了”,所以產品本身能說話可以解決很多問題。
基于這三點我們選擇了音箱為載體去做這些事情,但不代表我們只能做音箱,我們給產品注入了許多的機器人的屬性:你可以直接和它對話交流,和它聊天,它也可以算“1+1+1=?”,小孩可以問它百科知識。
雷鋒網(wǎng):語音交互難點在哪?
何永:做語音交互沒有想象中的那么簡單,里面有很多問題需要解決:
第一個麥克控制鏈技術,我們做的是遠場交互,手機上的語音識別技術雖然很成熟但其實屬于近場識別,拿到三五米遠可能就完全不能用。
第二就是基于麥克風的降噪,這里要考慮到如何把環(huán)境噪聲去掉,再把人聲放大。
第三就是當放音樂的時候怎么去進行語音控制,這里面有個很大的問題叫回音對焦,就是說設備播放音樂的時候,人聲很容易被掩蓋,這個時候改如何去進行語音識別,是個技術難題。
第四就是喚醒機制,遠距離對話首先要喚醒設備。原來的喚醒技術誤喚醒率高,平時無意中說出來的話可能就是觸發(fā)詞,就會誤觸發(fā)機器人說話,所以這也是個問題。
第五個就是遠場的語音識別,不僅是識別,還包括了對語調進行訓練,不是手機上簡單的語音識別。
第六個就是語義的理解。同樣做智能語音識別,與小i機器人不同的是,我們做2C,他們做2B。他們的技術用于企業(yè)客服,數(shù)據(jù)是有限的。但是隨著人工智能的發(fā)展,數(shù)據(jù)反而會越重要,相同的技術用于不同的領域,起到的結果是完全不一樣的。
何永:為什么做語音智能音箱就我們一家呢?因為從技術到最后的產品實現(xiàn)這中間要經(jīng)過很多環(huán)節(jié),它不是簡單地把東西往里塞,里面有很多東西需要驗證。
把技術與產品結合需要一個非常長的時期,一般要三到五年的時間,主要有4個環(huán)節(jié):第一個,技術本身的理論驗證,然后到技術的工程實現(xiàn),然后第三個就是和產品結合,第四個集成產品。
何永:對于傳統(tǒng)的音箱來說,音質和外觀最重要,但對智能產品來說,這兩個是基礎,還有第三個與第四個:交互體驗與音樂源。我覺得交互體驗是在這幾點中最重要的,我們一代的價格是399,所以我們的音質也不和市面上1000以上的音箱去比,這里可以說明下的是,低價位的音響設備對普通消費者來說音質存在的細微差異基本聽不出來,只有更高價位的音箱和專業(yè)的聽音師才能聽出差異。即便如此,還是不排除我們第二代的產品會在這個價格的基礎上做到更好的音質。
何永希望能利用小智超級音箱來連接智能硬件,通過語音能夠控制家里的一切家電。人工智能與音箱的結合,可以認為是何永對人工智能布局智能家庭的一次嘗試,他想要做的可能還遠不止于此。
比如最后談到了智能機器人Pepper的時候,何永認為Pepper更多是做企業(yè)服務,而未來他們的方向會是家庭服務,他也甚至指出了這里面存在亟待解決的兩個難點:第一點,真正的智能化,第二點就是硬件本身能做的事情的成本降低了。
小智,做的不僅是超級音箱,他可能還有更大的“陰謀”。
小智招賢納士,求賢若渴,歡迎有志之士簡歷猛砸郵件:hrd@360iii.com。
雷鋒網(wǎng)先鋒志(公眾號:vangzine)致力于發(fā)掘更多產品和技術創(chuàng)新驅動的創(chuàng)業(yè)項目。如果你也在創(chuàng)業(yè),如果你也認同產品和技術是改變世界的中堅力量,歡迎通過我們向業(yè)界介紹自己。聯(lián)系方式:startup@leiphone.com,24小時內會收到我們的回復。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。