3
本文作者: 小芹菜 | 2016-03-18 13:46 |
【觀點導讀】機器人是一個框,什么都能往里裝。但是我覺得真正意義上的機器人首先是能像人一樣具備智能,或者能完成一些原來必須要人才能完成的一些任務。有些服務機器人至少推出了有三年以上,但是為什么沒有火起來?最大的問題就是它們沒有真正意義上解決目標用戶核心的需求,沒有像智能手機一樣真正滿足了目標人群。
整個機器人行業(yè)的發(fā)展目前還處于一個很初級的階段,機器人的功能和定位沒有一個標準,業(yè)內(nèi)人士和用戶也有不同的期望值。我覺得短期之內(nèi)的突破點一個是細分市場痛點的需求,一個是在細分市場上做非常深度的定制優(yōu)化。
谷歌的AlphaGo,從人工智能角度來講還屬于弱人工智能。AlphaGo離我們真正的人工智能或者智能學習還是很遙遠的,它只是一個非常初級的階段。
注:以下來自上海元趣創(chuàng)始人吳義堅的分享。
( via 61gequ.com)
1、人工智能和機器人行業(yè)的大背景
我先講一下大環(huán)境,人工智能和機器人相關的行業(yè)報告都說,從這兩年開始,(這個行業(yè))在接下來的五到十年都會高速增長甚至市場爆發(fā)。
關于機器人的新聞很多,比如上個月谷歌發(fā)布了叫逆天的行走機器人。而關于機器人也有一些偏負面的新聞,比如你只要在網(wǎng)上搜索一下機器人殺人,排在前面的是一個德國機器人殺人事件;人工智能方面最近最火的就是AlphaGo和李世石的圍棋人機大戰(zhàn),在很多人看來這一天總會來臨,但是沒想到來臨得這么快。
人工智能也有負面新聞,霍金、馬斯克等人開始擔心人工智能將來有一天會威脅人類。其實我作為業(yè)內(nèi)人士看這些機器人、人工智能可能威脅人類的新聞時是有兩個心態(tài):
正面的就是,通過這些新聞吸引眼球有助于大家關注這個行業(yè)。另一方面也覺得這個炒作有點過了,其實從行業(yè)的角度來講人工智能或者機器人威脅人類這類聽起來危言聳聽的東西,理論上應該是存在的,只是我們只能是無限地逼近它,其實是很難做到那一點的,至少在我的有生之年。
回到今天的主題機器人與人工智能。
2、機器人包含哪些?市場有多大?
機器人是一個筐,什么東西都可以往里裝。
只要是一個機器,加了一點點跟智能相關的東西之后,甚至說只要加上wifi模塊,它就可以叫智能機器人了。比方說有一種煮蛋機器人,其實本質(zhì)就是一個電飯煲。其實這地方有一些東西所謂的概念和真正意義上的機器人還是不一樣的。
第二個就是人工智能,人工智能字面意思看起來很簡單,但是到底包含哪些東西?這里面還是有很多認不是很清楚的,我后面也會稍微講一下,包括我們現(xiàn)在的技術(shù)水平。
機器人,在百度百科上的嚴格的定義是自動執(zhí)行工作的機械裝置,也是可以受人類指揮,或者以人工智能的方式運行,任務是協(xié)助和取代人類工作。
所以從這個定義上講,某些自動執(zhí)行工作的確實也可以叫機器人,雖然它和我們期待的機器人不一樣,但從這個定義上講,或者從比較早期的寬泛定義上講確實可以。盡管如此,我覺得真正意義上的機器人首先是能像人一樣具備智能,或者能完成一些原來必須要人才能完成的一些任務。
機器人具體分為這幾大類:工業(yè)機器人,專業(yè)機器人,服務機器人。
工業(yè)機器人,理論上講是指所有在產(chǎn)線上可以自動化執(zhí)行任務,或者加一些感應裝置,可以做一些隨機應變的機器,這些寬泛地講都是工業(yè)機器人,我本人在這方面不擅長,今天就不講了。
第二大類是專業(yè)機器人,包括軍用、醫(yī)療、潛水等機器人。
第三大塊,也是我今天主要講的是服務機器人,包含商用和家庭用兩種。
3、服務機器人有哪些類別?
另外,我認為的機器人一定涉及到人機交互,尤其是這種服務機器人類。人的交互方式很簡單了,語音,觸摸,還有體感,所以涉及到聽覺、視覺、觸摸、按鍵,包括遙控,都屬于人機交互的模式。
第一大類就是商業(yè)用的服務機器人
看這張圖片,是銀行客服的機器人,第二個是餐廳的機器人,切菜,做刀削面的機器人。
(銀行客服機器人 via sinaimg.cn)
(刀削面機器人 via tintucimg.vnanet.vn)
這些機器人的特點,一是外形擬人,在行業(yè)里提供一些特定功能或者信息服務。這地方其實有兩大類功能,一是替代人工,比如刀削面機器人;還有一個重要的功能是吸引眼球,這是一個商用機器人或者展覽用機器人最大的一個功能點,因為吸引眼球就能導流,這一點從目前的商用服務機器人整個來說還是比較初級的階段。
另外就是家用服務機器人
這里面我想先提一下掃地機和無人機,其實以我個人的定義我不太傾向于把它們叫做機器人,它們更多是機器智能化,也就是機器加功能再加智能。我今天要講的機器人定位是擬人的,在機器人的基礎上加交互體驗,再體現(xiàn)它的功能。
家用服務機器人和商用服務機器人不一樣的呢?它更多屬于消費類電子產(chǎn)品,不管是掃地機也好,無人機也好,一定要在某一方面滿足終端消費者需求,甚至是個性化的需求。它不像B端,沒有實用功能或者實用功能不是那么強的時候還可以通過吸引眼球?qū)崿F(xiàn)導流功能。
我先給大家看一下國際上的一些比較知名的家庭機器人。
Pepper目前的定位是商用信息服務機器人,阿里巴巴也投資了,我還是把它放在家庭機器人范疇,因為它的未來發(fā)展目標還是定位在家庭,它的交互性能做得還可以,形態(tài)、品質(zhì)在整個家庭機器人里面也是比較好的,尤其是已經(jīng)量產(chǎn)了,家庭機器人里面很多比如說阿西莫機器人還只是概念產(chǎn)品。
Pepper
另外一個是叫Nao的機器人,這個機器人四五年前就有了,是法國的一家公司做的,目前主要的應用場景是在家庭里面比如說小孩子的教育。
Nao
前面這兩個機器人長遠的目標是想做成家庭機器人,但是它們的實用化功能還沒有達到終端消費品的期望值,目前更多的應用場景是在商用場所。
第三個是前年年底左右在國際上做眾籌的Jibo機器人,它一開始定位就是家用的,可以拍照,輔助人做一些事情(比如回復一些信息,跟小孩子互動等)。但是大家都知道眾籌的很多產(chǎn)品都會跳票,Jibo到目前為止還沒有發(fā)送,國內(nèi)應該在年內(nèi)上市。
Jibo
還有一個機器人是Buddy,法國的一家公司做的,它更多的側(cè)重于家庭的監(jiān)控和安防,你可以遠程控制這個機器人,也可以進行遠程溝通,目前應該也還沒有正式量產(chǎn)。
Buddy
另外說一下Amazon Echo,它其實不是機器人而是更像siri,你可以跟它語音互動,聽新聞之類,雖然外形跟機器人不一樣,但它提供了人機互動和助手服務等家庭服務機器人的功能。
Amazon Echo
國內(nèi)現(xiàn)在家庭機器人很多,寬泛地講有上千種
小魚在家機器人主打的是遠程陪伴,就是你可以像微信或者蘋果的facetime一樣跟家人進行遠程雙向視頻互動,它里面也有類似Siri一樣的語音助手功能。
公子小白的機器人主打是陪伴家人,或者年輕情侶的機器人,它分男孩版和女孩版,可以語音交互,聊天調(diào)侃,講講笑話什么的。
這里面我稍微提一下,現(xiàn)在國內(nèi)絕大部分,應該是95%以上的機器人里面用的人工智能核心技術(shù)都是集成類似科大訊飛的第三方技術(shù)。大家也在問,我們機器人用的是哪一家的技術(shù)?我這里說明一下,我們的語音交互技術(shù)也是自主研發(fā)的,在這點上Rokid機器人和我們是類似的,它的語音技術(shù)也是自己研發(fā)的,Rokid的外形其實是一個非??犰诺囊繇?,你可以跟它語音互動,它會有一些比較擬人的反應。
為什么我要提自己研發(fā)語音技術(shù)這一點?因為人工智能中語音交互這個技術(shù)大家見到最多的就是Siri, Siri的體驗離期望值的差距還是非常大的,這也是為什么需要持續(xù)對這些技術(shù)進行性能迭代優(yōu)化。而第三方提供的技術(shù)是通用的,通用的技術(shù)很難達到客戶的實用化需求,更不要說個性化需求。叮咚音響是科大訊飛推出的一個產(chǎn)品,訊飛做人工智能和語音交互是非常領先的,他們以前更多的是提供技術(shù)給第三方,現(xiàn)在也推出一個音響類的語音交互及個人助手類產(chǎn)品。
類似這樣的機器人還有很多:做一個機器人的外形,外加集成一些語音交互以及人臉,物體識別功能。
兒童機器人主要是兩大類產(chǎn)品:玩具和學習機
玩具類機器人有上春晚的這個跳舞機器人,你可以在很多展會上看到,小孩子可以跟它玩,就跟遙控車一樣。但是所有的玩具會涉及到一個問題,小孩子基本上都是一陣子的新鮮感,家長一般不太愿意花非常多的錢,因此單件的玩具價格很難上去。學習機是不一樣的,包括步步高點讀機、小天才學習機,中國的家長還是愿意在小孩子學習、早教上面花錢的,大家都知道各種各樣的早教班花費是非常多的。
小優(yōu)機器人是學習類機器人里面比較有代表性的,已經(jīng)迭代了有三代了,外形一直沒有變過:機器人的外形,胸前是一個PAD觸摸平板,相當于既是一個機器人也是一個學習機。另外現(xiàn)在還有很多幼教機器人,就是把手機或者平板套一個殼,然后裝一個迅飛或者其他家的語音助手就可以作為一個機器人去賣了,這類機器人價格很便宜基本上就是山寨機的做法。
4、服務機器人之前怎么就火不起來?
這上面這些機器人,不管是小優(yōu)機器人、阿爾法機器人,至少推出了有三年以上,但是到目前來說還沒有火起來,最大的問題就是它們沒有真正意義上解決一個目標用戶核心的需求,沒有像我們的智能手機一樣真正滿足了目標人群的核心需求。
我們需要思考這些家庭機器人到底解決了什么問題?到底是一個痛點問題還是一個癢點,到底有沒有實用價值還是只是一個噱頭?家庭機器人也有要特別考慮的問題,到底是服務這個家庭某一個特定人群,還是所有成員,就像家用冰箱一樣。
家庭機器人大多強調(diào)智能家居入口概念,但是現(xiàn)在基本上除了小孩子每個人都有智能手機,現(xiàn)在很多智能硬件產(chǎn)品都要結(jié)合手機,家庭機器人PK智能手機到底有什么突出優(yōu)勢?掃地機器人目前在家庭機器人里已經(jīng)算做得不錯很普及了,滿足了用戶的剛需和痛點,但還是有掃不干凈的問題,就這么一個簡單的事情都沒有完美解決,更別說其他功能的家庭機器人。
比如說主打陪伴功能的,真的能做到像科幻電影里面的那種效果是很難,因為只是做一個語音互動都難稱滿意,更別說人機交互,大家都知道Siri那個聲音聽起來是怎么樣的,包括微軟的小冰,看看文字還可以,一聽聲音效果立馬大打折扣??蛻魧χ鞔蚺惆楫a(chǎn)品的人機交互情感效果期望值是很高的,這點目前技術(shù)還差得很遠。
兒童機器人是有剛需的,看你是不是真的能很好地滿足用戶的剛需。做成多功能型的,還是主打一個功能?還有最大的問題就是小孩子的新鮮感與長期使用的黏性問題,小孩子到底愿意使用它多長時間?最后一點就是這個兒童機要同時做到小孩子喜歡和家長放心,屏幕可能傷眼睛,游戲可能造成沉迷,就像平板電腦小孩子都喜歡玩但是家長不放心,這個市場是家長掏錢給小孩子使用,因此兩個方面都要滿足到。
關于屏幕傷眼睛這個問題,我自己做這個產(chǎn)品的時候也會涉及到這個問題,稍微澄清一下,理論上講所有的屏幕都會傷眼睛,不管是大還是小,甚至你長時間看書也會傷眼睛。對于保護眼睛,其實主要是兩點,一是距離多遠,二是看多長時間,這才是最關鍵的。
整個機器人行業(yè)的發(fā)展目前還是很初級的一個階段,機器人的功能和定位沒有一個標準,業(yè)內(nèi)人士和用戶也有不同的期望值。我覺得短期之內(nèi)的突破點一個是細分市場痛點的需求。一個是在細分市場上做非常深度的定制優(yōu)化。當然長期趨勢來看機器人行業(yè)還是非常清晰的,就像人手一個手機一樣,未來肯定是每個人都會有機器人,但是這個機器人是滿足單一的需求還是滿足多樣化的需求,滿足特定一個人的需求還是滿足一個家庭的需求,這個地方目前來說還不是特別的清晰。
我講一下第二大塊的人工智能部分。
人工智能的基本定義就是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)的應用?;旧暇褪悄M人的思考問題和反應方式。
我把人工智能分成三個階段:弱人工智能,強人工智能和超人工智能。
比如谷歌的AlphaGo,從人工智能角度來講屬于弱人工智能,它只是擅長某一個方面,某一個特定領域的某一小點,利用機器擅長的運算能力做到了極致甚至超過了人類,但是在某一個領域真正的理解方面,它的人工智能還是屬于非常弱的。
強人工智能是什么呢?它不是單一功能,而是能做很多像人一樣的智能水平的事情,就是人類能干的腦力活它應該大部分能干,甚至跟人相當于同一個水平。
最后是超人工智能,人工智能跨過強人工智能往超人工智能轉(zhuǎn)化,可能就是一瞬間的事情,從理論上講確實是有這種可能性的。因為人類進化就是一個緩慢的過程,而機器的特點是運算比人強,存儲比人強,進化速度比人強。
AlphaGO可以在幾天之內(nèi)運行幾千萬盤棋譜,但人也有擅長的地方,比如概念認知是人類天生的,這個東西目前為止現(xiàn)在還沒有任何的基礎理論能讓機器自己認知一個概念,更別說一些自動推理、規(guī)劃、決策,機器只能在人定義的范圍之內(nèi)做規(guī)劃和決策。
認知上面比如說語音識別,現(xiàn)在機器做得還不錯,通用的語言理解基本上現(xiàn)在都做不到?,F(xiàn)在真正的人工智能涉及的主要領域就是這些地方:類人智能感知、聽覺、視覺、嗅覺這些基本上都能做到了,當然機器擅長和不擅長的地方跟人不一樣。比如說觸覺,現(xiàn)在機器還不能像人一樣感知那么細膩,但是在聽覺和視覺方面,機器在某些方面甚至比人還要強,比如說在基礎視覺方面機器在黑暗的環(huán)境下看的比人要清楚,但是涉及到一些抽象視覺感知現(xiàn)在機器還是接近于0。另外在信息反饋方面機器在性格、感情表達方面還做不到。
1、語音技術(shù)的發(fā)展
我本人做語音交互做了十幾年,接下來我會側(cè)重講這個方面,涉及一些基礎的東西包括深入學習,也會順帶講一下計算機視覺。
語音技術(shù)研究從五十年代就開始了,一直到九十年代都是在做很多基礎的研發(fā),深度學習大概在距今10年左右得到了非常大的突破。整個語音技術(shù)的發(fā)展是這樣的:基礎研究從簡單的任務開始,比如一開始是識別十個數(shù)字,到后面的孤立詞,然后到連續(xù)語流,從最早的特定說話人到現(xiàn)在的所有的說話人,從早期的安靜環(huán)境、受限環(huán)境到現(xiàn)在的復雜環(huán)境,這是整個語音技術(shù)發(fā)展的歷史?,F(xiàn)在很多場景下大家都能夠看到一些語音識別的成熟應用了。
所有的語音識別和模式識別都是一樣的,首先要把一個語音信號做特征提取,然后再做一個模型匹配。我們這里有兩個模型,一個是聲學模型,還有一個語言模型,聲學模型就是人的聲音是怎么發(fā)出來,語言模型有點像拼音輸入法,把聽出來的聲音對應到某一個字。
2、深度學習如何應用到語音中?
深度網(wǎng)絡學習算法DNN是怎么應用到語音的?其實用的就是在聲學模型里面的。在過去的十年之內(nèi),任何一個語音的單項技術(shù)能做到10%準確率的提升,都是很了不得的,但是DNN能做到30%以上提升,是非常大的一個突破。DNN是替代了以前的HMM或者GMM,大家稍微有點基礎的就知道概率分布, GMM就是高斯分布,就是你最有可能出現(xiàn)在什么地方可以算一個概率,這個是傳統(tǒng)的概率論。DNN不是這樣的,其實神經(jīng)網(wǎng)絡在七十年代就已經(jīng)出現(xiàn)了,但是它為什么一直沒有很大規(guī)模使用呢?就是因為以前傳統(tǒng)的神經(jīng)網(wǎng)絡雖然理論都有很多層,但是實際上應用只有一層,一個原因是那時候沒有很好的訓練算法,第二個是運算量巨大,當時的計算機根本沒有辦法算。大家都知道AlphaGO的機器配了很多的GPU,這個也是近這幾年GPU運算能力的擴張才使得這個算法得以實現(xiàn)。
傳統(tǒng)單層的神經(jīng)網(wǎng)絡就很簡單,左邊這個是輸入的信號,比如語音信號提取的數(shù)據(jù)輸入到這個里面去,所有的連接都是一些參數(shù),需要提前訓練好,然后輸入就是說這個參數(shù)對應到這個模型是什么?,F(xiàn)在DNN發(fā)展到十層甚至到十幾層,而且每一層有一千個甚至幾千個節(jié)點,這里面參數(shù)有幾百萬甚至上千萬,傳統(tǒng)的訓練算法根本做不了這個事情。
我們現(xiàn)在用的聲學模型基本上有四五層以上,每一層都有1024×1024個節(jié)點,輸出的音有幾千個,甚至上萬個。這么多的參數(shù)怎么在系統(tǒng)中做好,我通過這個圖講一下基本的原理:你看我輸了這個語音數(shù),輸入這些參數(shù)之后它自動往后擴張,所有的參數(shù)乘以這個系數(shù),然后在這里得出一個得分,然后這地方就算出一系列的值來,這一系列的值再往后擴張,一直到最后這個就是我們的聲音的得分。比如這個節(jié)點是a,你這一組節(jié)點進去得到a的概率是多少。我們再說一下人臉識別,人臉圖像也是一組參數(shù)輸入進來,通過這個網(wǎng)絡往后走,在一千個或者一萬個人臉庫中,每個人臉匹配的概率值中找一個最大的。DNN訓練就是你已經(jīng)有大量的數(shù)據(jù),你已經(jīng)知道輸入是什么,輸出是什么,通過這里面所有的樣本去調(diào)這幾百萬個參數(shù)。具體算法就不講了,是非常非常復雜、運算量非常大的,這就是為什么要靠GPU來計算,如果要靠CPU,上萬臺服務器可能都不夠。
3、谷歌的AlphaGO強在哪里?
下面我具體講一下谷歌的AlphaGO,比賽我相信大家都看了,相關的論文和報道在網(wǎng)上都有了。我再簡單地講一下它的原理,里面涉及到兩塊,左邊這一塊就是傳統(tǒng)的機器學習,已經(jīng)有大量高手對決棋譜樣本在那兒了,就像我們大量的語音和圖像數(shù)據(jù)。還有一個部分就是它學成模型后自己跟自己對弈,然后可以調(diào)一組參數(shù),對弈完之后如果發(fā)現(xiàn)這個更好,就去加強,往這個方向去調(diào)整。就像你每天自己練,可以發(fā)現(xiàn)某一招更好。機器的學習速度是很快的,這個就是它比人類強的地方,因為人類高手棋譜幾萬或者幾十萬就不得了,但是他自己跟自己對弈可能有上億盤那么多。
大家知道為什么圍棋難下呢?中國象棋是比較容易用人工智能模擬的,因為它的目標比較清晰吃掉帥就算贏了,而且象棋落子的可能性也少很多。但是在圍棋上面是不行的,圍棋的變化可能比地球上所有沙子的數(shù)目加起來還多。其實業(yè)界拿圍棋做一個實驗場地優(yōu)化人工智能算法已經(jīng)有五到十年了,原理比較簡單,就是局部分析和全局分析。局部分析就是下棋的時候可以算一個局部最優(yōu),因為局部的空間比較小。另一方面下圍棋時全局觀非常重要,所以谷歌用DNN做了另外一個事情,可以評估出當前做法在全局上的獲勝概率是多少。通過這兩種方式,就兼顧了局部最優(yōu)和全局最優(yōu)。
圍棋每一個點可能對應的是兩百種可能,兩百種以內(nèi)選一種下法的意思是在輸入端相當于下法,輸出點是每一種下法對應來做一個最優(yōu)的選擇。在這個系統(tǒng)里面,每一個可能的落子點都算過得分。
AlphaGo的人工智能和別家有什么樣的區(qū)別?
我們的語音數(shù)據(jù)一般要幾千個小時,甚至要上萬個小時才能訓練出一個性能還不錯的神經(jīng)網(wǎng)絡。圍棋方面我覺得高手的棋局沒有那么多,AlphaGo應該更多的是通過后面自學習的方式提高的。當然前提是先通過已有棋局訓練出一個不錯的系統(tǒng)。
AlphaGo的訓練具體是指什么?
訓練的是所有神經(jīng)網(wǎng)絡的參數(shù)。
首先調(diào)參數(shù)并不是人在調(diào),人調(diào)整的只是策略,比如定義多少層網(wǎng)絡,用什么樣的訓練策略。但是具體神經(jīng)網(wǎng)絡里面的參數(shù),現(xiàn)在沒有人能解釋幾百萬上千萬個參數(shù)具體有什么意義,它有點像一個黑盒子。在傳統(tǒng)的統(tǒng)計模型里面,概率分布是很好解釋的,比如說老人跟小孩子的聲音為什么不一樣,因為它頻譜這邊有一個共振峰,在那個位置有一個高低分布,都有一個物理解釋。
DNN里面的參數(shù)是沒辦法解釋的,但是它確實很強大,這就像我們無法解釋人腦一樣的。
宏博說他一開始低估了AlphaGo,覺得它肯定下不過李世石,因為研發(fā)團隊里并沒有頂級圍棋高手給它做策略指導,雖然可以借鑒大量的歷史棋局,但是單純地模仿高手下法或許可以達到職業(yè)初段選手的水平,真正面對頂尖職業(yè)高手時必然會出現(xiàn)應變不足的情況,因為圍棋的變化實在是天量的,運算能力再強也無法窮盡,對目前依靠機器深度自我學習是否能達到頂尖職業(yè)棋手水平還抱懷疑態(tài)度。
實際從第一局棋看來,AlphaGo有一些下法我們國內(nèi)的一些頂尖的高手都沒有想到,賽后谷歌的工程師也說到AlphaGo現(xiàn)在已經(jīng)不再依賴棋譜,它已經(jīng)把圍棋游戲規(guī)則和基本套路完全吃透,實現(xiàn)了以獲勝為目標嚴格按照策略和價值模型自我學習自我優(yōu)化,即人工智能的增強學習概念,這個是AlphaGo真正可怕的地方,后面隨著模型不斷優(yōu)化進步人類選手將越來越難以戰(zhàn)勝它了。
谷歌強就強在使機器可以做基礎的學習。
AlphaGo可以自我對弈,然后找到更好的策略,而且它的進化速度遠比我們?nèi)丝?。但是這里我要稍微說明一下,深度學習更多的是一種抽象的概念,就是不要學表面的,而是學深層的。深度神經(jīng)網(wǎng)絡也是深度學習的一種體現(xiàn),也是目前大家都在用的。其實反過來說,雖然AlphaGo在圍棋上面很可怕,但其實它離真正人類的學習還是差很遠的,或者說它還是在做模式識別或者模式訓練,雖然它有一些自我學習的概念,但只是一個很小的單一目標任務上的訓練,或者說參數(shù)的優(yōu)化。這個還不是真正意義上說的概念認知,甚至說AlphaGo都不知道下棋這個概念,對它而言下棋只是一個任務、一個目標。我覺得AlphaGo離我們真正的人工智能或者智能學習還是很遙遠的,它只是一個非常初級的階段。
回到語音這一塊,大家可以看到整個語音的發(fā)展歷史是很慢的,前后差不多有30年都是徘徊在識別率突破不了90%的水平,而人類在各種環(huán)境的識別率達到98%或99%以上。目前的語音識別差不多在安靜環(huán)境下面識別率可以接近95%,其實更多的是在各種環(huán)境下面。在復雜的環(huán)境下面,現(xiàn)在的語音識別準確率還不高,不管是噪聲環(huán)境,或者有口音,甚至語速過快的情況,在更復雜的環(huán)境更不要說了。
另外說一下語音合成,它是把輸入文字變成聲音,科大訊飛最早就是做語音合成出來的。語音合成大家感覺在某種場合下可以用,比如播天氣預報或者播語音導航,這些都是合成技術(shù),聽著沒有什么問題。再往后,比如朗讀小說等絕大部分也還可以接受。但是到對話聊天,比如陪伴機器人,聲音傳遞的信息除了文字以外還有情感、情緒、個性,目前來看語音合成還很難滿足需要。
語義分析就更難了,只是從技術(shù)層面上講,分析一些特定領域的東西是可以的,比如打電話給某某,不管原來傳統(tǒng)的基于規(guī)則的,還是基于統(tǒng)計的,基本上都可以做得很好。但是開放式的語義理解就會非常困難,尤其是一些新的概念。目前大家看到的語義分析也好,包括AlphaGo的理解,機器還是屬于非常初級的階段,都是人預先設定告訴它這是什么東西,而不是它自身能自我從這里面能學習到的,所以更多的是訓練而不是叫學習。
目前的語義理解技術(shù)分為兩大塊,一個是在通用領域,它基于一個海量知識庫去匹配的回答出來。比如說查今天的天氣,這種任務他是理解的,但是如果真的聊天調(diào)侃,表面上好像理解了,但是其實從技術(shù)層面上它并不存在理解,這只是一個知識庫的匹配,或者統(tǒng)計的分類。在特定領域這種語音技術(shù)雖然說還不夠好,但是其實只要做到足夠多的深度定制,基本上是可以達到實用的。比如IBM的Watson,它對一般的醫(yī)療問題甚至可以給出比普通醫(yī)生還要好的建議。
再簡單介紹一下計算機視覺。
它從人工智能或者機器學習的角度上和語音識別原理是一樣的,因為語音信號是一個一維的模型,圖像是一個二維的,而視頻相當于一個二維圖像的時間序列。剛才已經(jīng)給大家看過了語音的識別過程,深度學習的框架是一樣的,唯獨不同的是特征提取,你要把特定領域的東西找到一定的信號輸入進去。
現(xiàn)在計算機視覺在人臉識別,包括一些物體的檢測都可以號稱在國際上有一個專門的測試上面可以做到99%了,但是實驗室的測試和實際環(huán)境是不一樣的,化妝、光線、角度等因素對人類識別能力影響不大,但是對機器而言就很難了,因為它學習的這套機制跟人腦的機制理解是完全不一樣的。
人工智能的產(chǎn)業(yè)格局跟機器人不一樣,因為機器人這個行業(yè)里面還沒有什么巨頭,市場還沒有起來。人工智能基本上都是國際、國內(nèi)的巨頭在做——
谷歌、facebook、蘋果、微軟、Amazon,可以看到全球互聯(lián)網(wǎng)、終端類大公司基本上都在做。
國內(nèi)最強的應該是百度,也是以技術(shù)擅長的一家公司,百度擁有語音圖像、深度學習實驗室,在AI上面的投入水平確實在國際上是排得上的。阿里、騰訊相對弱一些。阿里做了一些語音技術(shù)和人工智能的布局,也投資了Pepper。騰訊這方面更多的是應用,他們目前的技術(shù)儲備還是不夠的??拼笥嶏w本身是做人工智能出身,包括傳統(tǒng)的語音識別和合成,還有現(xiàn)在的超腦計劃,訊飛也聯(lián)合了很多國內(nèi)外的研發(fā)機構(gòu),我認為現(xiàn)在國內(nèi)在整個人工智能行業(yè)布局上除了百度、科大訊飛是排在前面的,這包括技術(shù)水平還有整個未來的發(fā)展前景。
人工智能產(chǎn)業(yè)還可以大致分為三塊:
首先是通用平臺,像谷歌、BAT,除了提供技術(shù)還提供產(chǎn)品和服務。
其次是技術(shù)平臺,科大訊飛是國內(nèi)最全面的,facc++也是比較熱的技術(shù)平臺。
第三塊細分產(chǎn)品就比較多了,包括我前面提到的擬腦機器人,還有Jibo等。
人工智能的技術(shù)還是處在一個相對比較早期的階段,大規(guī)模的應用或者達到或者接近用戶的期望值還有很長的路要走,所以在短期之內(nèi)細分產(chǎn)品也是有蠻大的市場的。
編者注:以下是活動現(xiàn)場的交流問答,為不影響閱讀,雷鋒網(wǎng)節(jié)選其中幾個精彩問題與讀者分享——
(按:高宏博系華泰證券計算機行業(yè)首席)
1、圍棋的下法里面是否已經(jīng)開始體現(xiàn)出個性?
吳義堅:那并不是個性,只是我們覺得它有個性。比如說新的下法,是因為人類沒有那樣嘗試過。或者說所有的高手一開始學的時候,他認為那種下法是不可能贏的。而機器會在跟自己博弈,它后來發(fā)現(xiàn)這樣也能贏,這不叫個性,它就是在預設目標和規(guī)律下通過增強學習發(fā)現(xiàn)了一些新的可行路徑。因為人類也一樣,圍棋早期的下法也是不一樣的,但是有一些人通過實踐和總結(jié)演變新的布局和招法甚至圍棋理論,只是機器演變的速度比人類快,這個是它強的地方。
其實個人覺得人類后天學習的一些東西,而且是能單一化的東西真的會被機器取代,機器慢慢都能做到。但是人所謂的天生就會的一些能力,就像人只要看過一次貓后面就可以自己定義并識別貓,這種天生的能力人類自己也搞不清楚原理和邏輯,就沒辦法告訴機器怎么做?,F(xiàn)在機器就是人要告訴它怎么做之后,它會做得比人類更好。
高宏博:其實圍棋還是一個有單一目標固定規(guī)則的任務。工網(wǎng)絡算法分很多層,其實它也是模擬人腦的神經(jīng)源之間的相互原理,我們現(xiàn)在只是簡單的,其實他的基礎也是數(shù)學,這塊原來我跟訊飛的龔總提過這個問題,其實他有兩種算法:一個是計算機算法模擬,這個到最后一些簡單的可以處理,但是到最后高級的一些情感化模擬是不是能完全做到,像吳總這種科學家級別的也還在探索;另外一個從完全的生物學的角度去研究,現(xiàn)在還完全摸不到什么門道,現(xiàn)在一些生物公司,也是在碰,如果正好碰到一個療效就可以開發(fā)這個藥了。它還不如計算機有用,計算機至少還有一定的邏輯,而生物完全就是在碰了。但是能不能靠模擬能達到生物學的效果,這個確實還需再探索。
2、基于語音,基于視頻和基于圖象的這三種不同的深度識別,哪一種技術(shù)門檻會高一點?
吳義堅:通用的技術(shù)大家其實是差不多的,這里面有幾個東西不一樣:
一個就是特征提取,當然也是有技巧的,就是基于哪些特征更有效的描述你的目標;
而深度學習里面,不一樣的地方就是語音現(xiàn)在可能我們做到五層八層足夠了,而可能對于圖象,它可能要做到十層二十層,甚至幾十層,還是不一樣的。這不是哪一個門檻高的問題,是大家的側(cè)重點不一樣;
語音可能要解決的問題跟其他也不一樣,圖象有它的難點,比如它是孤立的,但是它對于圖象的理解,它更多的像是一個固定序列,并沒有真正理解,并不涉及到語言或者概念理解,它只是檢測里面的某一個東西。而這個語音識別加理解,其實更多的是要理解里面的概念。視頻理解,現(xiàn)在的視頻理解,現(xiàn)在的視頻理解更多的是基于圖象的技術(shù),檢測好這些東西再把它做一個序列化之后然后抽取一些關鍵之后就叫理解。視頻理解應該建立在圖象的理解基礎之上,視頻理解并沒有單獨的一個,更多的是在圖象基礎之上做的。
3、是否做語音的深度學習技術(shù)門檻更高一點?
吳義堅:不是的,語音現(xiàn)在它的難度其實要比圖象低,但是現(xiàn)在圖象的任務要比語音簡單。就像我語音識別只做十個數(shù)字的漢語識別,早就做到很高了。你看現(xiàn)在的人臉識別,并不是你做圖象識別的時候,你要識別你看到的所有的東西,現(xiàn)在就是這樣的,如果你要識別所有的東西肯定是圖象識別難,但是你如果只做人臉識別,這個比語音識別要容易,所以它可以做到99%,甚至更高。因為大家的任務難度不一樣的。
高宏博:前提是你這個臉要清晰。如果這個人只是類似于一個身份證照片,就比較容易一點。其實現(xiàn)在光線暗一點也不怕,因為他們現(xiàn)在也有相關的技術(shù),對機器來說你光線暗沒有關系,只要相對正面一點,他基本上能保證99%的,光從身份證的角度來講,你幾個相結(jié)合的話,基本上達到100%了。
我跟訊飛的江總探討了一下,他其實也是這個觀點:不管圖象也好,語音識別也好,其實區(qū)別不大, DNN算法都是拆成一系列的數(shù)據(jù),然后在里面過濾一遍,然后得出一個結(jié)果。而且它相當于把非常復雜的信息拆算然后最后得到一個結(jié)論。但是反過來如果只給一個有限的信息,比如像看到一個人或者看到景色,就能寫出一首詩出來,這個機器是很難做的,這個其實就是情感認知的東西,確實現(xiàn)在也找不到一個好的算法。
4、比如像語音識別,不同的廠商之間,體現(xiàn)出差別優(yōu)勢和區(qū)分呢?是否還有算法的精度?
吳義堅:核心技術(shù),包括谷歌,包括我們做的,核心技術(shù)大家在一個量級上,差別并不大,但是也要落實到具體的產(chǎn)品應用,每一個應用的場景都不一樣的,會帶來不一樣的難度。因為要做的事情都要受限定條件的信息或者目標。數(shù)據(jù)是一個重要的基礎,沒有數(shù)據(jù)是很難做好的。
算法一定要有一定的水平,但是現(xiàn)在的深度學習框架的門檻沒有那么高(當然也不是隨便一個人就能用),現(xiàn)在一些大一點的廠商應該都有這個能力把這個東西做了。主要還是在樣本和行業(yè)的應用上面。
高宏博:網(wǎng)力就是很有優(yōu)勢,雖然它做這塊還不是很早,但是它的邏輯就是很強,而且公安都是很強勢,需要的必須要提供。所以網(wǎng)力雖然不是從人工智能的角度很傳統(tǒng)的一個廠商,但是對他還是很看好。
5、現(xiàn)在很多廠商用GPU做深度學習嘛,但是很多廠家用FPGA做,你怎么看這兩個呢?
吳義堅:我覺得GPU是現(xiàn)在用的比較成熟的,F(xiàn)PGA也有一定的應用,很難說哪一個更好,因為FPGA還在一個初級階段。GPU目前基本上都有,像我們內(nèi)部做的運算全部用GPU,我相信百度肯定也全部是GPU,但是GPU已經(jīng)不叫通用了。針對DNN,因為FPGA可以針對深對的神經(jīng)網(wǎng)絡的定制,他肯定是有潛力的。
6、從做企業(yè)的角度看,中國企業(yè)比較有優(yōu)勢的會在什么產(chǎn)品?選怎么樣的企業(yè)可能更有潛力?
吳義堅:比如說訊飛他在語音評測上面,他在考試上面就是做得比較好,因為他在這方面做了很多的人力去做嘛,確實圍棋上面不行。甭管你通用平臺還是技術(shù)平臺,如果大家做得不一樣,其實各有優(yōu)劣勢的。
所以我覺得要做投資,谷歌百度這種本來人工智能只是他的一小塊的未來的發(fā)展方向,我不好評估。但是對這種技術(shù)平臺,肯定是未來的一個趨勢。但是技術(shù)平臺不會有那么多的家的,最后肯定是一家兩家出來,肯定不會超過三家。但是細分行業(yè)里面會有很多家,這就要看你細分行業(yè)里面,我后面沒有講,就是我對這個機器人細分行業(yè),現(xiàn)在做機器人有幾百家了,但是要看細分行業(yè)里面你的核心競爭力,因為目前的核心技術(shù)這一塊還不足以滿足用戶或者達到用戶的期望值。
我們現(xiàn)在做這個小孩的,目前只是離用戶的期望接近但還沒有達到。通用平臺會更遠,你沒有這個技術(shù)的先進,一個真正的產(chǎn)品要市場起來,你的產(chǎn)品不僅要滿足而且要逐步超出用戶的期望。我覺得這類東西細分行業(yè)里面他有能力去優(yōu)化他的產(chǎn)品,即便短期不行,長期他是有能力優(yōu)化他的產(chǎn)品,在未來三、五年類能做到甚至超出用戶需求的。而不是短期地看他的銷量多少,因為目前整個市場都還是很小的,無論是整個人工智能或者機器人市場。
7、像訊飛還有百度,是不是一個人工智能SDK,是一個凌駕在各種操作系統(tǒng)上面的SDK?
吳義堅:當然其實一樣的,它還有一個重要的東西,誰占有最大的市場和誰領跑,這個也是非常重要的,因為所有的東西都涉及到一個切換,因為目前還是一個比較初級的階段,現(xiàn)在訊飛也好,還有百度也好,其實還有很多家提供這個技術(shù)平臺,科大訊飛目前來說還是非常大的,但是目前也不好說,這個應該是他們比較重要的,但是是不是唯一的,這個很難說。他們不僅做SDK,也會做一些上層的。
高宏博:我理解訊飛是這樣的,因為DNN出來之后,門檻在下降,所以對訊飛來說不得不去做。訊飛通過這個,相當于無論從技術(shù)上包括從數(shù)據(jù)上把大家都綁定了,最后可能也就是百度做的。
之前大家站隊嘛,可能有兩三個大平臺來站隊。我覺得百度的優(yōu)勢更大,因為它有一個搜索,一個互聯(lián)網(wǎng)平臺,它是人工智能最好的。因為我們最早去硅谷,谷歌的工程師說過,其實你都不需要看到一個實體的產(chǎn)品,對我們來說只要搜索的準確率提高1%,我們就是幾十億美金收入。但是對訊飛來說,他現(xiàn)在主要搞的是教育。這次可能做完教育,我估計他后面兩三年之后教育成熟了可能會找大的行業(yè)應用,我猜想可能是醫(yī)療。但是像搜索引擎這種,百度已經(jīng)占了市場了。
【作者介紹】吳義堅,上海元趣信息技術(shù)有限公司創(chuàng)始人兼CEO、科學家、連續(xù)創(chuàng)業(yè)者。15歲進入中國科學技術(shù)大學少年班,獲博士學位,游歷東瀛,獲日本名古屋工業(yè)大學博士后。曾就職于科大訊飛、微軟亞洲研究院、擔任盛大語音創(chuàng)新院院長。從事和領導智能語音交互技術(shù)和產(chǎn)品研發(fā)近15年,在國際會議和期刊上發(fā)表40余篇學術(shù)論文,并擁有多項國內(nèi)和國際專利。作為一名80后的父親,吳義堅在繁忙的工作之余發(fā)現(xiàn)了孩子陪伴和早教成長的痛點。他于2013年在上海的張江高科技園區(qū)創(chuàng)立了上海元趣信息技術(shù)有限公司,和自己中科大少年班的同學一起,用世界領先的技術(shù),進行人工智能在幼童早教陪伴領域的產(chǎn)品和應用研發(fā)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。