0
雷鋒網云棲大會現場報道,第二天的飛天智能主論壇上,阿里以集中化的方式呈現了自己的AI全貌。阿里的科學家和工程師輪番上臺,這是信息量爆棚的一個主論壇,同時這也是一篇信息量爆棚的文章。溫馨提示,濃縮精華版請拉到本文最后看總結。
十人組成阿里云飛天智能“最強天團”,包括:
阿里云智能副總裁、產品與解決方案管理部總經理馬勁;
阿里巴巴副總裁、達摩院人工智能中心負責人、高級研究員華先勝;
阿里巴巴達摩院研究員、語音實驗室負責人鄢志杰;
阿里巴巴達摩院研究員、自動駕駛實驗室負責人王剛 ;
阿里云智能副總裁、數據智能事業(yè)部總經理、研究員曾震宇 ;
阿里巴巴副總裁、阿里云智能計算平臺事業(yè)部總經理、高級研究員賈揚清;
阿里云智能產品管理部總經理、AIoT事業(yè)部產品與解決方案總經理何云飛;
阿里巴巴集團副總裁、平頭哥半導體公司總經理戚肖寧;
阿里巴巴副總裁、阿里云智能數據庫產品事業(yè)部總經理、高級研究員李飛飛;
阿里巴巴合伙人、阿里云智能基礎產品事業(yè)部總經理、研究員蔣江偉。
如上即是阿里巴巴公布的AI全景,以下為分層闡述。
“Hello,world”,馬勁以程序員問候開場,他講到,今年年初阿里云做了一次重要的升級,升級之后的云智能能帶來什么,是行業(yè)整體都在關注的話題。以往各家云廠商或多或少都闡述過云+AI,阿里云又將如何將其全盤托出。
負責產品的馬勁也是今天的主持人,阿里的AI能力最終都要以產品形式做輸出,由他來串起阿里AI全景圖最合適不過。
馬勁表示,產業(yè)實踐是檢驗AI價值的唯一標準,2017年的云棲大會,阿里云提出了AI要在產業(yè)實踐中要發(fā)揮作用?!耙驗橹挥挟a業(yè)里面給我們提出明確的需求,有明確的需求AI才有改進的方向,同樣產業(yè)里面有真實的數據,可以建立更好的模型,還有很重要的一點,云計算可以提供更強的計算能力,同時不斷的降低計算的成本。在這個當中,我們的算法、算力、數據三者在不斷的結合,慢慢的在一個一個的產業(yè)實踐當中,一點一點帶來價值?!?/p>
阿里的產業(yè)AI實踐包括搜索、設計、客服如阿里小蜜、公共服務如城市大腦、物流、語音終端、翻譯等。據介紹,阿里巴巴AI每天調用超過1萬億次,其中日處理圖像10億張,服務全球10億人,日處理圖像10億張、視頻120萬小時、語音55萬小時及自然語言5千億句,已經成為中國最大的人工智能公司。
阿里巴巴5萬多位工程師,涉及的領域上天入地,今天集中講人工智能還是讓人稍感意外。這也是第一次,阿里官方出品,系統性、完整地介紹阿里巴巴經濟體真實場景與AI技術棧的良性循環(huán),把產業(yè)AI、各種算法、AI計算平臺、基礎設施、芯片等各個層面予以全貌展現、分層解刨。
基礎層,提供邊緣計算、專有云、公共云、終端、芯片等;
平臺層,主要給開發(fā)者使用,包括飛天AI平臺、飛天大數據平臺、飛天AIoT平臺等;
AI服務層和產業(yè)應用層,算法訓練之后變成原子化的服務,可以直接應用在現實場景中。
如上三層你可以抽象的理解為阿里云的IaaS、PaaS和SaaS,雖然劃分內涵稍有不同,但都是AI所必需的的三個層級。
在大會現場,阿里按照從上層到下層的順序來講述,產業(yè)AI是阿里AI全景圖的第一部分,這部分集中展示了阿里將AI應用于產業(yè)的實踐。在雷鋒網看來,這也是重落地輕概念的表現,技術落地才有價值,就像阿里云智能總裁張建鋒所言,「需求牽引、技術驅動」。
人工智能在實驗室和實際場景的表現差之千里,即使是人工智能中最璀璨最亮眼的視覺智能也是如此,華先勝指出,目前視覺智能的三大問題在于算不準、算不快、不能產生核心價值。
在阿里巴巴內部,視覺智能的日調用量超過1600億次,華先勝介紹了規(guī)?;瘜崙?zhàn)的三秘訣:
深研算法:以高精準分割為例,阿里提出的高精密三維分析讓圖片精讀準確且不失真,把語義的分類引入分割,把分割進行分層,由粗到細逐步的優(yōu)化,加上很多前處理、后處理的方法才可以做到高精度。
深挖效率:以城市大腦項目為例,最初一臺服務器只能處理一路視頻,后來增加到十路視頻處理,應用FPGA可以提升到30路,但越往上越難以優(yōu)化,這限制了城市大腦的批量推廣。
后來提出了一種通用的端到端的量化的方法,用華先勝的話說,“簡單到只要在參數方面加到一個函數,通過迭代就能夠逼近普通的量化,而且它是端到端支持任意比特的量化”。
通過這種方法,阿里把視頻處理能力從30路提升到了70路,相當于過去700臺服務器的任務,現在只需要10臺機器一個機柜就可以,城市大腦的快速復制也變得更加容易。
再比如超大規(guī)模搜索,從十億級別數據規(guī)模,毫秒級別檢索有損,到阿里目前支持的千億級規(guī)模索引,毫秒級近無損檢索,同時采用GPU量化,可以提速6倍。
深挖產業(yè):阿里直接用產業(yè)實踐來描述。
以較為成熟的城市交通場景為例,通行效率和交通安全是城市交通的核心。通行效率方面,精準的視覺感知技術,對流量做精準的感知,同時用深度學習的圖像感知技術對圖像做精準的預測,可以幫助交警解決難題。
交通安全方面,通過視覺感知對交通的事故進行實時全量的感知,能夠快速的處理交通事故,但這不是全部,阿里云更進一步,能夠預估事故發(fā)生的概率,如果有些地段事故發(fā)生的概率會增加,可以做到提前進行管控、處理,減少這些事情的發(fā)生,創(chuàng)造新價值。
在演講的最后,華先勝表示,“不成功的例子往往有不同的原因,而成功的規(guī)?;瘜崙?zhàn)卻有很強的共性。我們用強大的AI算法和算力、數據、價值以及第五個關鍵詞產業(yè),讓人工智能、視覺智能落到實處必須深入產業(yè),我們在產業(yè)當中深研算法,深挖效率,讓視覺智能成為產業(yè),為產業(yè)創(chuàng)造不可替代的價值,我們讓視覺智能認知現實,看清未來!”
阿里巴巴語言&語音AI背靠達摩院,在語音識別方面,2018年6月,阿里自主開發(fā)的語音識別模型(DFSMN)在世界最大的免費語音識別數據庫LibriSpeech上進行公開測試,將全球語音識別準確率紀錄提高至96.04%。
在語音合成方面,自主研發(fā)的Knowledge-Aware Neural TTS (KAN-TTS)語音合作技術,將特定發(fā)音人數據的自然度能提高到97%以上,有望通過圖靈測試。在語音交互上,研發(fā)ESIM模型,在DSTC-7對話系統挑戰(zhàn)賽獲兩個冠軍;阿里語音助手被《麻省理工科技評論》選為2018十大科技進展。
語言技術方面,阿里在2018年在國際公認的頂級機器翻譯賽事WMT(Workshop on Machine Translation)上獲得5項冠軍......
阿里的AI不再是只在阿里內部使用,在本次大會上,鄢志杰也表示,達摩院前沿技術零時差上云,阿里巴巴內部應用的語言和語音AI技術都可以在阿里云上在線獲得。
傳統行業(yè)并不是不想擁抱先進的AI,而實際情況是——傳統技術提供商提供的能力往往達不到行業(yè)利用的最低門檻,必須要做定制才可以用,定制就意味著額外的成本和時間,數據安全也是另一個障礙。
“整個語音AI落地過程當中,最尖銳的矛盾就是算法專家駐場定制化需求,跟這類專家的本身的人數稀少跟成本過高的矛盾”,鄢志杰表示。
對此,阿里前不久提出了自學習定制優(yōu)化產品,形象地描述就是——任何行業(yè)里面的實踐者,可以基于自學習定制平臺,在一個安全環(huán)境內,輸入自己的行業(yè)數據,在完全不知道語音跟語言算法的情況下,為垂直領域提供最優(yōu)的語音跟語言的技術指標。
“我們把傳統的屬于少數語音技術提供商的技術,交還到了行業(yè)里面實踐者的手里。讓他們可以握住這個方向盤,決定這些AI技術在他的行業(yè)落地的方向,達摩院的AI就是大家的AI?!?/p>
阿里巴巴自動駕駛的使命是讓物流更便捷高效,阿里自動駕駛專注兩個物流場景,其一是末端物流場景,園區(qū)無人車完成物流寄取件,其二是公開道路城配,這是定位未來的場景。
自動駕駛為什么難,業(yè)界有不同的答案,阿里云認為是場景多樣,道路復雜。對此,王剛重溫了自動駕駛的“No Free Lunch原則”,“沒有免費的午餐”,含義是通用算法不適用,要針對各場景細分優(yōu)化,這就意味著額外的投入。
通用的場景庫花費以人工設計、比較粗粒度、靜態(tài)場景為主,而阿里巴巴的場景庫則不同,按照數據驅動、高度精細化、和動態(tài)行為分類,特點是和算法高度融合,比如一個切入場景就可以被分為25個算法場景。
場景眾多,每個場景再細分,算法乘數級增長,怎么高效處理細化場景,阿里提出了AutoDrive平臺。相比通用的人工加智能方法,領域專家要負責超參數、網絡架構、決策工程、數據規(guī)則等等一系列工作,阿里巴巴是用計算換智能。
AutoDrive平臺能夠基于工程架構、設計理念自動化搜索和學習算法。據介紹,AutoDrive能夠路口防撞策略相比人工設計提升16.5%,研發(fā)效率提高五倍,檢測模型大小減少90%延遲降低50%。
“過去五年,AI支撐起阿里巴巴,未來五年,AI將支撐起各行各業(yè)。城市大腦、工業(yè)大腦這是我們在產業(yè)AI里面的實踐?!痹鹩畋硎?。
三年前,城市大腦在杭州落地,阿里以交通擁堵問題切入,阿里希望能夠把城市數據當成一種資源來看待,打破應用信息化壁壘的關鍵,把數據進行融合,用AI和數據來支撐交通,這就好比給城市裝了智慧的大腦。
隨后城市大腦的能力不斷拓展,城市當中有許多的領域跟交通非常相似,一方面由于資源不足或者效率低下,另一方面有大量高價值的數據處于沉睡狀態(tài),阿里用解決交通問題類似的方式來解決這些問題,通過城市大腦把城市的數據進行匯聚和融合,把數據轉化為推動城市發(fā)展的資源。
城市大腦是構建在阿里云飛天操作系統之上,它能夠提供城市級的數據中臺,數據中臺類似一個城市強大的地基,它能夠幫助政府把各行各業(yè)的數據進行匯聚、融合,并且能夠提供強大的計算能力,能夠把城市的數據轉化為城市發(fā)展的新的能源。正因為城市大腦能夠把各行各業(yè)的多元數據進行融合,打破了壁壘,并且通過AI技術才可以做到自動決策和全局的協同。
無平臺不普惠
產業(yè)AI主要講各個行業(yè)的落地情況,而怎么能讓更多人以工程化方法融入到AI產業(yè)之中,AI不僅僅要做到能用,更要求好用,冰山之下的人工智能計算等平臺很厚很重,但也很重要。
大神賈揚清的語速稍稍放慢,今天主要講AI工程化的平臺實踐。
很多人都有疑問,為什么會有非常多的業(yè)務在一個統一平臺上呢?為什么不能直接一個平臺一個業(yè)務呢?阿里所想到的是,平臺能夠向應用所提供的是它的資源,它的技術,它統一的方法論輸出,能統一的抬升業(yè)務的水平,并且業(yè)務的經驗不斷沉淀在平臺之上,提升平臺的能力,使得阿里面向用戶的時候,能自信的提供這些平臺的能力。
作為TensorFlow和caffe的主要作者,賈揚清經常被問到一個問題,“阿里要不要做自己的深度學習模型?”賈揚清在現場表示,“我想這個問題想了很長時間,今天我的回答:是,也不是”。
“我們不重新做輪子。幾年前深度學習引擎更多的是在做最簡單的建模。今天云邊端一體的應用導向開發(fā),新場景需要更多的引擎,比如端上的推理、稀疏的建模,讓數字科學家更加容易的構建機器學習的流程,這讓我們構建更多的、更新的、更不一樣的深度學習和傳統的機器學習引擎”,賈揚清給出了詳實的解釋,阿里不需要為了創(chuàng)新而創(chuàng)新,而是在現有的深度學習引擎之上做文章。
從數據的源頭開始做清洗做建模,最后輸入到AI系統里面去,離不開成熟的大數據平臺。
阿里巴巴的大數據平臺發(fā)展分為三階段,2017年以前,完成了數據的統一,從找不到數據管不住數據到用得上數據,把數據都放在同一個平臺上。
2018年,在找得到數據、用得到數據的時候,阿里開始思考怎么樣用得好數據。不光做數據的分析,還需要在數據當中提煉出規(guī)律,提煉出決策,提煉出服務,開始逐漸建設一個多生態(tài)的平臺。
今天,阿里巴巴新的飛天大數據平臺正式推出,“數據從哪里來,數據到哪里去,從數據源頭的同步集成,到原數據的管理,到任務的調度,到敏捷的開發(fā),這一系列的綜合治理的問題,安全分享、監(jiān)控、質量,大數據平臺沉淀下來的業(yè)務能力。它能夠保證AI平臺跟大數據平臺高效無縫的處理多態(tài)數據,選擇更加智能的模型?!?/p>
“未來二十年企業(yè)所需要的80%的信息,都會來自于智能設備物理世界的感知和認知,未來80%的企業(yè),都需要有一個自己的AIoT的平臺。”何云飛肯定地表示。
在這個過程中,阿里云扮演的角色是,做好面向智聯網的操作系統以及云端的基礎設施,物聯網操作系統最近話題很熱,其實阿里巴巴在三年前就開始布局智能化的操作系統,2017年10月份發(fā)布了面向物聯網的第一個版本。
AliOS Things 3.0正式發(fā)布,具備AI集成、微服務架構、安全可靠、自主可控、豐富的工具集等特性,特別是在硬件驅動層集成了最新的平頭哥AI芯片架構。
面對開發(fā)者,阿里還開發(fā)了開發(fā)、測試、遠程運維和遠程智能設備故障定位整套開發(fā)工具,讓開發(fā)者可以非??焖俚膶⑾到y移植到AliOS Things 3.0。
在此基礎上,阿里構建出一個城市物聯網平臺——城市AIoT平臺2.0,把城市目前所有感知的設備接入這個平臺,同時把城市里面常見的事件通過數字孿生和事件工廠能夠抽象成API,讓所有的合作伙伴和開發(fā)者直接在平臺快速構建一個智慧城市。
戚肖寧:端云相融 普惠AI
“在AI時代三件重要的事情,算法、大數據、算力。其實沒有算力其他都是空中樓閣?!逼菪幈硎?。
阿里的芯片布局包括,深度優(yōu)化視覺類應用定制芯片含光800,AIoT芯片基礎設施玄鐵嵌入式CPU系列,低門檻高效率設計芯片無劍SoC平臺等等,目標是端云融合的芯片布局。
根據雷鋒網此前報道,今年7月的阿里云上海峰會上,發(fā)布了高性能RISC-V架構處理器玄鐵910。玄鐵910集成16個核心,主頻2.5GHz,采用12級亂序流水線,最大支持8MB二級緩存,搭載AI增強的向量計算引擎,可用在人工智能加速器、網絡通信和自動駕駛等領域?,F場公布的數據顯示,玄鐵910較業(yè)界主流芯片性能提高40%,較標準指令性能高出20%。
8月,平頭哥又發(fā)布SoC芯片平臺“無劍”,無劍平臺由SoC架構、處理器、各類IP、操作系統、軟件驅動和開發(fā)工具等模塊構成,面向AIoT提供的集芯片架構、基礎軟件、算法與開發(fā)工具于一體的整體解決方案。根據官方的說法,無劍能夠幫助芯片設計企業(yè)將設計成本降低50%,設計周期壓縮50%。
7月發(fā)布的玄鐵910是基礎單元處理器IP,無劍是芯片設計平臺,含光800是阿里的首款AI芯片。這也意味著,阿里的C-Sky系列、玄鐵系列AIoT終端芯片IP,一站式芯片設計平臺無劍,以及最新發(fā)布的云端AI芯片構建了阿里端云一體的芯片生態(tài),平頭哥端云一體全棧芯片產品家族雛形已現。
面向未來,阿里還計劃投入存內計算、類腦芯片和AI輔助編解碼等領域。
阿里云數據庫在國內首創(chuàng)了云原生數據庫系統,從2009開始,ECS、OSS、RDS,再到后來的VPC網絡,打造了極致彈性的云原生數據庫系統基礎,借助開源生態(tài),結合阿里巴巴的業(yè)務實踐,打造智能化安全的云原生數據庫系統,阿里云原生數據庫POLARDB因此而誕生。
POLARDB采用分布式共享存儲,提供高可用極致的彈性,李飛飛表示,下一代企業(yè)級數據庫應用,一定是將云原生的技術以及傳統的分布式數據庫技術完美的結合起來。
云原生技術提供極致的彈性以及高可用,上層的分布式架構為企業(yè)級應用提供無限的水平拓展能力,這樣將彈性和無限水平拓展完結合起來。
今天阿里云發(fā)布了POLARDB云原生數據庫一體機,目標是“將云原生數據庫搬回家”,由于行業(yè)合規(guī)以及數據安全等等一系列的問題,企業(yè)不一定能夠及時的將所有的數據搬上公有云,這也是權衡之下的折中方案。利用云原生的管控技術,讓客戶能夠在自己的機房就能使用云原生云技術的便利。
POLARDB一體機針對5G和IOT做了大量的性能優(yōu)化,性能提升10倍以上,利用最新的并行查詢技術,相比最新版的Mysql性能有27倍提升以上。
蔣江偉:釋放云上的數據智能原力
蔣江偉上場就發(fā)布了第六代ECS實例,計算性能提升20%,內存延遲降低30%,云盤延遲降低30%;計算平穩(wěn)性6個9,用戶體感宕機率比物理機降低80%,適用于各種各樣的計算場景,包括大數據、離線等場景。
第六代ECS背后是神龍架構,蔣江偉將其形容為計算類產品的技術中臺。今天第三代神龍架構正式發(fā)布,核心是兩個方面,自研虛擬化操作系統神龍Hypervisor(硬件加速虛擬化),以及自研神龍IO加速芯片,神龍架構統一了整個阿里云的計算平臺,提供一致的服務能力。
蔣江偉在現場表示,過去容器最佳載體被認為是物理服務器,今天他表示,容器最佳的載體是基于神龍架構的裸金屬服務器。
“為什么這么講?物理服務器其實有四個缺陷,第一個沒有彈性,第二個不夠穩(wěn)定,第三不是服務化的,重要的一點,迭代速度慢。而裸金屬服務器既有物理機的性能,同時又有虛擬機的靈活性,虛擬化采用硬件隔離的方式,使得安全性提高,并且將存儲、網絡IO的運算封裝在芯片,實現端到端的安全”,蔣江偉如此闡述。
阿里在人工智能賽道的起步不算最早,但可以說是踩著人工智能產業(yè)的鼓點起舞。
七年前,阿里開始籌備iDST,等到AI風口在2015年前后興起,阿里已經儲備了相當分量的AI人才;2017年阿里組建達摩院,全面啟動人工智能全領域布局;目前,阿里AI在國際頂級技術賽事上獲得了40多項世界第一,入選了近400篇國際頂會論文,并落地到各行各業(yè)。
上圖是更簡單直白的圖像化描述,這幾乎是阿里AI的全貌圖。「需求牽引、技術驅動」,在這種思想指導下,阿里道出了建立在云計算基礎之上的人工智能全局。
自然語言處理、智能語音、視覺計算落地于產業(yè),賦能產業(yè)AI;
AI平臺層,飛天AI平臺、飛天大數據平臺、AIoT平臺居中,降低AI開發(fā)門檻,提供不同的關鍵能力,也起到承上啟下的作用;
AI芯片層、AI云服務層打造健壯的基礎設施,強云才能生長強AI。
總而言之,上層應用是呈現,平臺是支撐,底層是硬核芯片和計算能力。
而阿里也確定了與眾不同的AI商業(yè)化模式:從算法、應用到商業(yè)化的科研閉環(huán);不做SaaS,而是被集成戰(zhàn)略;通過阿里云生態(tài)輸出產業(yè)AI能力。
阿里云智能,中國最大的云計算公司搖身一變,成為最大的人工智能公司,更重要的是,其一,阿里云智能要升級成為一個全新的基礎設施,而不再只是最初的算力,其二,阿里云智能變成阿里集團戰(zhàn)略一部分,定位是阿里巴巴經濟體技術輸出新平臺。
相關文章:
阿里巴巴自動駕駛注重場景精細化 Autodrive平臺引入智能算法
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。