0
本文作者: 田苗 | 2016-11-11 00:56 |
11月10日晚,在“雙11”晚上,除了國內(nèi)外各路明星捧場,有一位特別的嘉賓,給這場以“買買買”為主題的晚會上增加了科技色彩。它就是阿里云推出的人工智能ET。
今年8月的云棲大會上,阿里云宣布推出人工智能ET,它從小Ai演化而來。當(dāng)時(shí)作為阿里云旗下的首款人工智能機(jī)器人,小Ai在4月《我是歌手》的總決賽上,準(zhǔn)確預(yù)測了最終的歌王得主。據(jù)了解,ET背后采用的是大數(shù)據(jù)AI技術(shù),基于阿里云強(qiáng)大的計(jì)算能力,目前已經(jīng)具備智能語音交互、圖像/視頻識別、交通預(yù)測、情感分析等技能。當(dāng)時(shí)在現(xiàn)場,ET展示了模仿馬云說話的技能。阿里云首席科學(xué)家周靖人表示,ET優(yōu)勢不僅僅單純陪人說學(xué)逗唱,更多體現(xiàn)在全局洞察和實(shí)時(shí)決策上。
“雙11”晚會現(xiàn)場,ET先是掃描現(xiàn)場5名觀眾的面部。然后,主持人讓觀眾依次隨機(jī)切牌,拿到黑色牌的觀眾轉(zhuǎn)身面向后方。其中有4名觀眾轉(zhuǎn)身后,ET再次進(jìn)行掃描。最后ET 得出每位觀眾手拿的牌。
對于這個(gè)魔術(shù)秀,阿里云官方也即時(shí)進(jìn)行了解密。
完全真實(shí)。由人工智能ET真實(shí)的算出來。
從32張牌中取5張進(jìn)行隨機(jī)排列,全部的可能性為P(5,32)=32*31*30*29*28=24165120,所以成功率為1/24165120。
而通過一系列的魔術(shù)環(huán)節(jié)設(shè)計(jì),使得最終在32種可能性里進(jìn)行計(jì)算。ET要通過攝像機(jī)來自行識別誰轉(zhuǎn)身來獲得關(guān)鍵信息,并算出最終的唯一結(jié)果。
3. 這次魔術(shù)秀背后的原理是什么?
事實(shí)上,這是一個(gè)經(jīng)典的魔術(shù),只是這次由阿里云人工智能魔術(shù)師ET來表演。
32張撲克牌以數(shù)學(xué)方程式De Bruijn 序列排列,其原理很復(fù)雜,但結(jié)論很簡單,從這樣的序列中任意取出相鄰n個(gè)數(shù),它們的二進(jìn)制排列一定不相同。這就意味著,ET只需將5名觀眾手上的黑牌和紅牌(對應(yīng)二進(jìn)制里的0和1)按順序出來,就只有一個(gè)唯一的解。
簡單來說,將牌事先按順序排列,不管怎么切牌,排序組合的可能性縮減到32種,然后根據(jù)下面這張圖表尋找對應(yīng)的排列形式,答案就呼之欲出了。
對應(yīng)排列形式如下圖:
換句話說,如果你能背熟這張表,并且在知道5張牌那幾個(gè)是黑色后,幾秒內(nèi)報(bào)出某個(gè)序列的花色和牌號。你也可以成為魔術(shù)師。
A 圖像識別
ET能夠?qū)崿F(xiàn)對通用圖片的識別,可以檢測出圖片中的具體的物品以及所在圖片的位置區(qū)域。現(xiàn)已經(jīng)支持水果、蔬菜、常見日用戶、美食、運(yùn)動器械、交通工具、植物、動物等百種以上物體的識別檢測能力。
比如ET在魔術(shù)中識別出華少手中拿了撲克牌即用到了這一技術(shù)。
在場景識別方面,ET可以判斷是屬于室內(nèi)、室外、自然風(fēng)景或者其他場景;
在動物識別方面,ET能判斷這些圖片中特定動物的位置信息以及置信度同時(shí)返回每個(gè)位置的動物的相關(guān)種類,支持上百種動物的識別。
ET背后的阿里云圖像識別技術(shù)采用了世界領(lǐng)先的深度學(xué)習(xí)技術(shù),同時(shí)結(jié)合了其他機(jī)器學(xué)習(xí)的一些算法,使得以上功能準(zhǔn)確度均達(dá)到95%以上
B 智能語音交互
ET的智能語音交互基于語音識別、語音合成、自然語言理解等技術(shù),實(shí)現(xiàn)了“能聽、會說、懂你”。
比如在與華少的交流中,ET不僅能“聽懂”華少的話并在屏幕下方實(shí)時(shí)打出字幕,還能給出相應(yīng)的回復(fù),對答如流。不同于其他語音識別技術(shù),ET還能夠結(jié)合演講的上下文對之前識別的錯(cuò)誤進(jìn)行修正。
比起各種實(shí)驗(yàn)性的技術(shù)數(shù)據(jù)來說,阿里云更重視將高端技術(shù)的工業(yè)級應(yīng)用引入ET。如,ET實(shí)現(xiàn)了BLSTM(雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò))算法的第一個(gè)工業(yè)級應(yīng)用,幫助YunOS系統(tǒng)在IoT設(shè)備上輕松實(shí)現(xiàn)了人和設(shè)備的自然交互。
BLSTM算法是深度學(xué)習(xí)中的一種,一般的深度學(xué)習(xí)算法只能看到上下文的一點(diǎn)點(diǎn),BLSTM理論上可以看到無窮遠(yuǎn)的上下文,所以可以更好的理解人類的語言。但這就對單位時(shí)間內(nèi)的計(jì)算量要求很高,阿里云飛天為此提供了強(qiáng)力支持。
C 人臉識別
阿里云ET的人臉識別技術(shù)已經(jīng)覆蓋了人臉檢測、器官輪廓定位、人像美化、性別年齡識別、1對1人臉認(rèn)證和1對多人臉識別等多個(gè)方向,用機(jī)器學(xué)習(xí)的方法,包括卷積神經(jīng)網(wǎng)絡(luò)、Supervised Descent Method等,實(shí)現(xiàn)了高精度和高效的技術(shù),人臉識別在LFW上識別率為99.5%。
比如在觀眾抽取撲克牌時(shí),ET已經(jīng)完成了對5位觀眾的面部識別,并利用人臉?biāo)惴ń⒘似鞴佥喞ㄎ唬员阒笞R別出是否有人轉(zhuǎn)身?;诖?,ET能夠輕松識別出黑牌觀眾轉(zhuǎn)身的動作,準(zhǔn)確報(bào)出5名觀眾的手牌。
基于這些業(yè)內(nèi)領(lǐng)先的技術(shù),阿里云將ET的能力對外輸出。在人臉方面,可提供多樣化的云服務(wù)和手機(jī)客戶端SDK支持,實(shí)現(xiàn)人像檢測、人臉美顏美妝、性別年齡表情識別、VIP識別、人臉認(rèn)證、安防檢測等多種功能。
整個(gè)過程中需要ET要具備高精確度、高實(shí)時(shí)性的視頻識別和語音能力,并用人類的語言和主持人溝通交流。因直播環(huán)境受到場地、燈光、音效的影響,語音識別、視頻識別都會受到很大考驗(yàn)。
阿里云人工智能ET代表的是阿里云語音識別、語音合成、自然語言理解、實(shí)時(shí)圖像識別、機(jī)器學(xué)習(xí)的綜合技術(shù)。這些技術(shù)的底層都依賴于深度學(xué)習(xí)算法以及大規(guī)模計(jì)算能力。一套復(fù)雜算法模型的訓(xùn)練往往需要千億級別的樣本數(shù)據(jù),這就對背后的計(jì)算能力提出了很高的要求。
阿里云的飛天操作系統(tǒng)為ET提供了前所未有的計(jì)算能力。阿里云首席科學(xué)家周靖人領(lǐng)導(dǎo)的人工智能研究機(jī)構(gòu)iDST為ET配備了全面的算法庫,以推動ET在多個(gè)領(lǐng)域不斷進(jìn)化。
借助深度神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù),阿里云人工智能ET已經(jīng)具備利用數(shù)據(jù)為一整座城市提供思考和決策的能力,目前,杭州政府聯(lián)合13家企業(yè),為這座擁有2200多年歷史的城市,安裝了一個(gè)人工智能中樞——杭州城市數(shù)據(jù)大腦。在杭州蕭山區(qū)的部分路段的初步試驗(yàn)中,城市大腦通過智能調(diào)節(jié)紅綠燈,車輛通行速度最高提升了11%。
另外,阿里云人工智能ET在今年4月份湖南衛(wèi)視《我是歌手》的決賽中,在直播現(xiàn)場成功預(yù)測了李玟奪冠。
在其他領(lǐng)域,ET已經(jīng)開始擔(dān)任法庭書記員、超級交通警察、影視投資經(jīng)理、客服等角色。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。