0
本文作者: 李詩 | 2018-05-21 21:56 |
目前,微軟、Google、亞馬遜、蘋果、Facebook都巨頭都在布局人工智能,將人工智能作為公司全面發(fā)展戰(zhàn)略,涉及方方面面,不花費一通功夫,很難一下子了解各大公司的技術(shù)、布局和產(chǎn)品落地。
今天,在北京召開的微軟2018人工智能大會上,微軟把自家做的事一股腦全說了。
在雷鋒看來,發(fā)布會的亮點主要有:微軟著重強調(diào)了其新的“世界觀”:智能云和智能邊緣;展示了微軟在語音語義、視覺、機器翻譯的多項技術(shù);微軟發(fā)布ONNX項目及ML.NET打造開源跨平臺人工智能開發(fā)框架;搭載著全新的“全雙工語音技術(shù)”的微軟小冰帶來了原創(chuàng)詩歌、歌曲和兒童故事;中國移動、大疆、唯品會、小米生態(tài)鏈分別展示了與微軟人工智能的合作成果。
云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能正在將我們的世界將變成一臺巨大的計算機。
微軟全球執(zhí)行副總裁、人工智能及微軟研究事業(yè)部負責人沈向洋博士介紹到,在這樣的新時代,微軟有了全新的世界觀:智能云和智能邊緣。
智能云指的是微軟Azure,是微軟專為人工智能打造的云平臺。Azure匯聚了微軟在人工智能領(lǐng)域的全部投入與技術(shù)積累,是開發(fā)、部署、運行人工智能的云平臺,同時也是將智能云與智能邊緣融會貫通的關(guān)鍵環(huán)節(jié)。
微軟一直在拓展Azure的功能,Azure目前有四個方面:公有云Azure、混合云Azure Stack、物聯(lián)網(wǎng)Azure IoT Edge和Azure Sphere,以這四個方面打造出完整的計算環(huán)境,支持全新應(yīng)用場景。
Azure Stack是Azure公有云在本地數(shù)據(jù)中心的擴展,可以在邊緣和離線環(huán)境運行、滿足多種監(jiān)管要求。例如石油開發(fā)公司同時使用Azure公有云和Azure Stack可以按照辦公地點靈活分配計算資源。
Azure IoT Edge是微軟在2017年Build大會推出的針對智能邊緣計算的產(chǎn)品,可以在Linux和Windows上運行,而2018年Build大會上,微軟宣布將 Azure IoT Edge 開源,允許開發(fā)者進行擴展、添加功能,并部署到任何環(huán)境中。
Azure 上的認知服務(wù)也可以擴展到Azure IoT Edge,目前微軟已經(jīng)推出了定制視覺服務(wù),可以讓無人機或其它工業(yè)裝備無需連接到云,就能做出快速的響應(yīng)和處理。會上,大疆展示了與微軟的合作,利用Azure IoT Edge和微軟人工智能服務(wù),大疆開發(fā)出適用于農(nóng)業(yè)、建筑行業(yè)、公共安全及更多應(yīng)用場景的解決方案。
Azure Sphere主要用于保護和驅(qū)動智能云上的設(shè)備。2020年,全球智能邊緣設(shè)備的總數(shù)將超過200億臺,世界會成為一臺超級計算機,但是我們也會擔憂安全問題。Azure Sphere方案將提供經(jīng)過特殊設(shè)計的安全芯片、安全操作系統(tǒng)和能夠守護每臺設(shè)備的云端安全。
在介紹完Azure云平臺的四個方面后,沈向洋介紹了微軟將Azure與AI結(jié)合,打造最佳人工智能云平臺的四個方向:認知服務(wù)、對話式人工智能、開放平臺與工具、實時人工智能基礎(chǔ)設(shè)施。
在兩年前的Build 2016微軟全球開發(fā)者大會上,微軟首次公布了運行于Azure的認知服務(wù),以API的形式為開發(fā)者提供易用的人工智能技術(shù)能力。目前微軟在全球推出包括語音、視覺、語言、機器翻譯等功能的24項服務(wù),超過100萬開發(fā)者使用。
CaptionBot能像人一樣理解和描述一張圖片,例如,你上傳一張照片,CaptionBot能夠給出一段文字描述:比爾蓋茨正拿著一副網(wǎng)球拍,他看起來很高興。
此外,還介紹了微軟OCR((Optical Character Recognition光學字符識別),將為各種人工智能應(yīng)用增加圖形文字識別功能,目前支持從Office到Skype、Bing、HoloLens的微軟應(yīng)用,可以識別圖像內(nèi)的文字,例如識別車牌號、海報甚至是手寫的筆記。
CaptionBot和OCR都是Azure預(yù)制的人工智能服務(wù),微軟也針對變化的場景推出了定制視覺服務(wù),可以讓不具備深度學習、機器視覺背景的開發(fā)者定制圖像標簽?zāi)P?、物件認知模型。
微軟技術(shù)院士黃學東介紹了微軟在人工智能語音語義方面的進展。在計算機視覺方面,2015年微軟亞洲研究院發(fā)布的152層殘差網(wǎng)絡(luò)(ResNet)的圖像識別準確率已經(jīng)達到96%,勝過人類;2017年8月,微軟在Switchboard語音識別基準測試中的錯誤率已經(jīng)降低至5.1%,達到了媲美人類專業(yè)速記員的水平;2018年1月,微軟亞洲研究院自然語言計算組率先在斯坦福大學發(fā)起的SQuAD文本理解挑戰(zhàn)賽上獲得超越人類的分數(shù);2018年3月,微軟亞洲研究院與微軟雷德蒙研究院宣布,其研發(fā)的機器翻譯系統(tǒng)在通用新聞報道測試集newstest2017的中-英測試集上,第一個達到了可以與人工翻譯媲美的水平。
5月初,雷鋒網(wǎng)曾報道,谷歌在I/O大會上展示了Google語音助手的Duplex(雙工)技術(shù),能主動給餐館、理發(fā)店打電話,幫助用戶預(yù)約時間。由于其聲音和音調(diào)與人類幾乎沒有差別,能實現(xiàn)連續(xù)對話還能理解上下文快速反應(yīng),在朋友圈大火了一把。這時,微軟坐不住了,趕緊發(fā)出了技術(shù)聲明,表明微軟小冰在兩年前就實現(xiàn)了AI與人類通電話,并且在谷歌之前就公布了實現(xiàn)AI與人雙向交流的全雙工語音技術(shù)。
在現(xiàn)場,黃學東忍不住Diss了一下,說Google動不動就吹牛, ”微軟不僅有全雙工,微軟更實現(xiàn)了全三工、全四工、全五工……”
現(xiàn)場展示了一款“全多工”的產(chǎn)品——微軟與Roobo合作的AI會議系統(tǒng)。微軟特意在現(xiàn)場準備了四個人的現(xiàn)場會議演示,可以看到,這款A(yù)I會議系統(tǒng)能識別不同人的聲音,實時以文字記錄下大家的發(fā)言內(nèi)容,同時識別出涉及工作安排的內(nèi)容生成代辦事項。這個產(chǎn)品,可以說是每個團隊中會議記錄員的救星。
黃學東還展示了語音定制技術(shù),根據(jù)上傳的錄音,可以生成和用戶一樣聲音的AI助手。上傳30分鐘的錄音,得到的AI說話與用戶相似度不高,但是以10小時的錄音進行訓(xùn)練后,就能得到較為逼真的模仿效果。想一想,你會想要把家人或者朋友的聲音放進AI里,讓它隨時陪伴你嗎?
黃學東稱今年微軟達到中文英文翻譯超過專業(yè)人士的水平。大會上,小米生態(tài)鏈企業(yè)香蕉出行展示了魔芋AI翻譯機,借助微軟認知服務(wù)中的微軟翻譯打造,能夠提供14種語言的實時語音翻譯。雖然由于現(xiàn)場混音效果,魔芋AI有幾次識別不出語音指令,但翻譯的效果還是不錯的,可以說是出游利器。
亞馬遜Echo智能音箱帶動了對話式人工智能的產(chǎn)品落地,現(xiàn)在對話式人工智能已經(jīng)進入音箱、電視、車載等多個設(shè)備中,是新一代智能應(yīng)用的核心。對話式人工智能也在不斷升級其對話能力,追求越來越自然、流暢的人機交流。
微軟有小娜和小冰兩個對話式人工智能助手,小娜更傾向于發(fā)展智商,而小冰則是面向情商維度發(fā)展的人工智能系統(tǒng)。
微軟小冰誕生已經(jīng)三年,一直以逗貧、插科打諢的聊天風格著稱。最近,微軟將最新的全雙工語音交互技術(shù)(Full Duplex)應(yīng)用在了微軟小冰上,同時提升了小冰的智商和情商,具備了以下能力: 一次喚醒之后的連續(xù)對話、預(yù)測用戶接下來的對話內(nèi)容、 幫助用戶輕松完成多重任務(wù)、內(nèi)容創(chuàng)造(寫詩、寫歌、講故事)。小冰不只是能夠執(zhí)行用戶的任務(wù),還能主動提供聊天語聊,陪伴和關(guān)心用戶。
這次大會上,微軟展示了一段小冰在一次電話聊天結(jié)束后,由于判斷出用戶情緒低落,認為需要再一次電話溝通,于是又撥打了一通電話,去詢問用戶情緒是否變好、提醒用戶早點休息、告知用戶明天天氣情況。
據(jù)了解,2016年8月起,微軟(亞洲)互聯(lián)網(wǎng)工程院通過人類用戶主動發(fā)起的方式,在明確告知用戶小冰并非人類的前提下,已讓小冰與人類用戶完成了累計超過60萬通電話交流。
在內(nèi)容創(chuàng)作方面,微軟展示了小冰寫的詩、原創(chuàng)歌曲、有聲讀物。在有聲讀物領(lǐng)域,微軟已擁有接近4萬集有聲童話內(nèi)容。這些有聲讀物全部由人工智能技術(shù)生成,在與人類主播質(zhì)量相當?shù)那疤嵯?,?shù)量足以陪伴一個孩子從2歲到9歲的全部時光。6個月來,這些有聲讀物已順利投放到占中國市場90%的兒童早教機、故事機和在線播客平臺,播放總時長超過400萬小時。
今年四月,微軟已經(jīng)在中國和美國宣布了全雙工語音技術(shù),并且有多項產(chǎn)品落地,微軟(亞洲)互聯(lián)網(wǎng)工程院副院長李笛宣布,今年秋天,微軟還將向合作伙伴和開發(fā)者開放“全雙工語音技術(shù)(Full Duplex)”開發(fā)者可以使用這項技術(shù)打造自己的對話應(yīng)用。
雷鋒網(wǎng)好奇,微軟的全雙工語音技術(shù)開源,這會不會對現(xiàn)在的智能音箱里的“傻萌”的語音助手進行一次洗牌呢?(延伸閱讀:微軟發(fā)大招:要做智商和情商兼具的語音助手)
要促進人工智能的普及,技術(shù)開放是必經(jīng)之路,微軟也推出了開放人工智能平臺(Open AI)戰(zhàn)略及開發(fā)工具。
微軟可以支持TensorFlow、CNTK等業(yè)界主流的深度學習平臺,同時,微軟還發(fā)起了開放神經(jīng)網(wǎng)絡(luò)交換(ONNX)項目,旨在推動人工智能研究的互操作性,讓任何深度學習框架在任何芯片與任何設(shè)備上都能運行。目前,已經(jīng)有15家公司支持ONNX,并且還有更多公司正在加入進來?,F(xiàn)在已經(jīng)有PyTorch等六種頂級框架支持ONNX,其它框架則可以通過轉(zhuǎn)換器獲得支持。
在Build 2018微軟全球開發(fā)者大會上,微軟宣布推出跨平臺、開源機器學習框架ML.NET開放預(yù)覽。ML.NET讓任何開發(fā)者都能開發(fā)出自己的定制化機器學習模型,并將其融入到自己的應(yīng)用中去——開發(fā)者完全無需具備開發(fā)和調(diào)試機器學習模型的經(jīng)驗。這一框架最初由微軟研究院開發(fā),并且在Windows、Bing、Azure等微軟產(chǎn)品上都得到了成功的應(yīng)用。通過將這一技術(shù)框架開源,微軟希望能夠為每一位開發(fā)者賦予駕馭機器學習的能力。
微軟Project Brainwave能利用Azure上最先進的FPGA基礎(chǔ)架構(gòu)完成實時的人工智能處理。用戶只需通過實時的單一批數(shù)據(jù),就能得到以往需要多得多的批數(shù)據(jù)處理才能得到的性能,真正實現(xiàn)人工智能的實時計算。而且,F(xiàn)PGA運算不僅僅只在云端提供——通過合作伙伴,也可以通過Azure Stack混合云在本地提供FPGA。如此強大的實時計算能力不僅存在于云端,同時也適用于邊緣計算,這將讓更多創(chuàng)新成為可能。
雖然今天我們看到的都是全新的AI技術(shù),但是微軟也沒有忘記其桌面時代的核心業(yè)務(wù)Windows和Office。
AI功能已經(jīng)成功與Office 365、Dynamics 365、Linkedin等產(chǎn)品和功能融為一體。例如,在發(fā)郵件時,微軟提供了多種語言的一鍵翻譯。在用Excel時,Excel能更好地猜測用戶的行為,提前生成用戶可能需要的內(nèi)容。
在前些天的錘子手機發(fā)布會上,羅永浩推出了自己的堅果 TNT 工作站,用人工智能的語音和語義技術(shù)升級Office辦公軟件,例如,可以用語音指令來做PPT和Excel,用語音指令制作幻燈片,包括調(diào)節(jié)字體大小、顏色、樣式等。
雷鋒網(wǎng)發(fā)現(xiàn),很多人評論這些需求或許都是偽需求,我們看到微軟也在用人工智能升級桌面辦公系統(tǒng),更能直接對比,究竟什么樣的智能操作才是我們所需要的。
最會,為了推動全民AI,讓每個人都有機會學習人工智能,微軟推出在線人工智能學院,目標是一年內(nèi)培養(yǎng)出10 萬余名人工智能人才,將免費提供包括AI基礎(chǔ)、核心技術(shù)和高階應(yīng)用在內(nèi)的總共250課時的12門人工智能學分課程,覆蓋10項應(yīng)用技能。完成課程學習的用戶,還可申請微軟專業(yè)學位課程(MPP,Microsoft Professional Program)作為職業(yè)技能認證。 感興趣的朋友可以敲:(https://school.azure.cn/)
相關(guān)文章:
會打電話的 AI 背后:谷歌 Duplex 技術(shù)解析
微軟 Build 發(fā)布會總覽:雖然 Windows 10 缺席,但亮點依然很多
Smartisan R1 是真旗艦,但堅果 TNT 工作站真的是革命性產(chǎn)品嗎?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。