0
本文作者: 劉偉 | 2017-06-21 16:08 | 專題:雷峰網(wǎng)公開課 |
人工智能無疑是當前最為熱門的科技概念。作為科技界的領軍企業(yè),微軟在人工智能領域耕耘已久。早在25年前微軟研究院建立時,人工智能就已經(jīng)成為整個微軟的戰(zhàn)略目標。微軟為此傾注了許多精力和資源,并取得了亮眼的成績,但它還有著更加宏偉的愿景:將人工智能帶給每個人,從開發(fā)者到數(shù)據(jù)科學家,從技術愛好者到學生。
本次公開課,雷鋒網(wǎng)邀請到了微軟亞洲研究院掌門人洪小文博士,為大家分享《微軟人工智能公開課》第一章節(jié)——《微軟人工智能概覽》中的精彩內(nèi)容,介紹微軟在人工智能領域的最新研究成果以及微軟的AI服務如何賦能開發(fā)者。
整套《微軟人工智能公開課》已在微軟虛擬學院全面上線,感興趣的朋友可以點擊鏈接(https://aka.ms/MicrosoftAIMOOC)跳轉(zhuǎn)學習。
據(jù)雷鋒網(wǎng)了解,《微軟人工智能公開課》分為三大塊,呈金字塔結(jié)構,最底層針對所有的開發(fā)者,涵蓋認知服務Cognitive Service以及Bot Framework。中間層針對數(shù)據(jù)科學家,包括Azure Machine Learning、HDInsight、Stream Analyst等。最頂層則瞄準需要開發(fā)自己算法的研究者,主要工具有 Microsoft Cognitive Toolkit、Azure Data Science VM等,同時也支持其他框架,比如 TensorFlow、Caffee等。
洪小文博士,現(xiàn)任微軟全球資深副總裁,微軟亞太研發(fā)集團主席,兼微軟亞洲研究院院長,全面負責推動微軟在亞太地區(qū)的科研及產(chǎn)品開發(fā)戰(zhàn)略,加強微軟與中國和亞太地區(qū)學術界的合作。
洪小文博士是電氣電子工程師學會院士(IEEE Fellow),微軟杰出首席科學家和國際公認的語音識別專家。洪博士在國際著名學術刊物及大會上發(fā)表過百余篇學術論文。
很多人都在問,我們研究人工智能的目的是什么。微軟的答案是:讓我們的應用和服務能夠擁有像人類一樣認識世界的能力,在視覺、語音、語言、知識等維度得到拓展,帶來更好的用戶體驗。
還有很多人問,人工智能該如何分類,究竟哪幾部分算人工智能。人工智能技術紛繁復雜,但微軟認為可以歸結(jié)為三大類:
大數(shù)據(jù)&機器學習
認知計算能力
對話即服務的體驗
以智能手機為例,我們與智能手機的交互是通過不斷點擊屏幕上的菜單來實現(xiàn)的;用戶需要耗費很多時間學習菜單中每個選項代表的意義。認知服務可以讓我們與機器的交互變得更加簡單直接,機器也能更好地了解用戶的意圖,不必浪費太多的溝通時間。
微軟在AI領域耕耘已久。1991年,微軟AI基礎研究院成立,致力于打造一個能夠聽懂、看懂和理解人類以及世間萬物的電腦。2007年,微軟語音部門從研究部門正式轉(zhuǎn)為產(chǎn)品部門,開啟了AI的產(chǎn)品化道路。到2014年,在天津的一個活動中,微軟系統(tǒng)已經(jīng)能夠?qū)⒂⑽难葜v實時翻譯為中文了。緊接著,2015年微軟亞洲研究院的計算機視覺系統(tǒng)首次在ImageNet上打敗了人類。這套計算機視覺系統(tǒng)對超過2000種物體進行辨認,失誤率僅為3.5%,而人類的失誤率為5.5%。當時這套神經(jīng)網(wǎng)絡共有152層,如今已經(jīng)發(fā)展到了上千層。
但對于微軟來說,人類與人工智能的關系不是誰打敗誰。事實上,AI將成為人類最好的工具,能夠拓展人類的智能,讓人類完成更多的事情。一般我們理解的AI是Artificial Intelligence(人工智能),但也可以將其闡釋為Augmented Intelligence(增強智能)。未來人類與機器密切合作,就能實現(xiàn)我們理想中的Superman。微軟的愿景就是,通過API等方式讓AI這項看似高大上的技術平民化。有了微軟的認知服務API,開發(fā)者無需自己做人臉識別、年紀識別和物種識別,只要使用相應的API,就能輕松調(diào)用這些功能,在其熟悉的領域開發(fā)應用。
微軟的認知服務API主要可以歸結(jié)為5大類:
視覺:從面部感官到感覺,讓對話機器人了解圖像、視頻和情緒。
語音:把語音轉(zhuǎn)換為文本,或把文本轉(zhuǎn)化為語音,了解用戶的意圖,翻譯語言,過濾噪聲以及識別說話者。
語言:教對話機器人理解復雜的自然語言指令,解析復雜的文本以及理解用戶情緒。
知識:從網(wǎng)絡、學術界,或者用戶自己的數(shù)據(jù)積累中融合豐富的知識。
搜索:通過必應API的強大功能,訪問數(shù)十億網(wǎng)頁、圖片、視頻和新聞。
微軟此前和一個非營利組織達成合作,共同尋找失蹤兒童,其中就用到了視覺服務中的人臉識別。利用算法和深度學習,系統(tǒng)可以了解一個人的外貌。雖然人類在成長過程中外貌會不斷變化,但系統(tǒng)可以從數(shù)學的角度找到比例等不變的特征,從而將其辨認出來。
微軟的人臉識別API,除了可以檢測圖片中的人臉,識別其屬性;還能實現(xiàn)人臉驗證、相似人臉搜索、人臉分組、人臉辨識等功能。此外,情緒識別也是人臉識別的重要應用之一。微軟的情緒識別API并非簡單反饋對象的情緒好壞,而是返回一個分值,供開發(fā)者進行判斷。
微軟的語音API目前已經(jīng)具備了聽和說的能力,支持多國語言以及多種方言。此外,聲紋識別也是語音識別中非常重要的部分。通過聲紋識別,系統(tǒng)可以辨認出說話人是誰,這對提升語音識別的準確率非常關鍵。尤其是在嘈雜的環(huán)境中,如果系統(tǒng)可以辨認出用戶,那么就可以對背景聲和其他人的語音進行屏蔽,實現(xiàn)更好的語音識別效果。
語言和語音的關系非常緊密,語音只解決了“聽到”的問題,能夠辨認出句子中的每一個字;但要“聽懂”,了解這些句子背后的涵義,就需要用到語言能力。語言能力建立在語音的基礎之上。以往很多所謂的自然交互都是通過關鍵字判斷來實現(xiàn)的。比如,用戶輸入“幫我看看是否有違章”,系統(tǒng)自動檢測到關鍵字“違章”,就能得知用戶想要查詢違章記錄。而借助深度學習的語義理解,即使用戶輸入的信息中不包含關鍵字“違章”——比如輸入“幫我看看是否有違法停車”“我昨天闖紅燈了,怎么辦”,系統(tǒng)也能理解用戶的真實意圖。
“知識”能力的應用場景很多,其中最具代表性的是學校,比如尋找論文等。此外,很多企業(yè)也運用到了“知識”的能力,比如利用用戶產(chǎn)生的數(shù)據(jù),通過深度學習,向用戶提供個性化的產(chǎn)品和服務。
將多個微軟的人工智能API整合到一起,可以開發(fā)出非常有趣的應用。比如一個叫做songbot的應用,它可以識別圖片中的內(nèi)容,自動獲取關鍵字進行歌詞創(chuàng)作,并將作品唱給你聽。
以上圖為例,系統(tǒng)掃描圖片后自動獲取到“小鳥”“飛翔”“自由”“夢想”和“天空”等關鍵詞,這部分用到了視覺的能力。songbot通過學習多達20萬首歌,基于自然語言能力,理解了歌詞的結(jié)構和組織。因此獲得關鍵詞后,可以利用機器學習重新創(chuàng)作歌詞,最后利用語音合成技術把它唱出來。
為了讓開發(fā)者、數(shù)據(jù)科學家、技術愛好者和學生能夠充分利用微軟的人工智能API,開發(fā)出更強大的應用,拓展全人類的智慧,微軟特地推出了《微軟人工智能公開課》,邀請各個領域的專家為不同知識程度的人工智能從業(yè)人員及愛好者提供針對性的專業(yè)輔導。該課程可以通過登陸微軟虛擬學院輕松獲取。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。