微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

本文作者：劉偉

2017-06-21 16:08

導語：微軟的愿景就是，通過API等方式讓AI這項看似高大上的技術(shù)平民化。

人工智能無疑是當前最為熱門的科技概念。作為科技界的領(lǐng)軍企業(yè)，微軟在人工智能領(lǐng)域耕耘已久。早在25年前微軟研究院建立時，人工智能就已經(jīng)成為整個微軟的戰(zhàn)略目標。微軟為此傾注了許多精力和資源，并取得了亮眼的成績，但它還有著更加宏偉的愿景：將人工智能帶給每個人，從開發(fā)者到數(shù)據(jù)科學家，從技術(shù)愛好者到學生。

本次公開課，雷鋒網(wǎng)邀請到了微軟亞洲研究院掌門人洪小文博士，為大家分享《微軟人工智能公開課》第一章節(jié)——《微軟人工智能概覽》中的精彩內(nèi)容，介紹微軟在人工智能領(lǐng)域的最新研究成果以及微軟的AI服務如何賦能開發(fā)者。

整套《微軟人工智能公開課》已在微軟虛擬學院全面上線，感興趣的朋友可以點擊鏈接（https://aka.ms/MicrosoftAIMOOC）跳轉(zhuǎn)學習。

據(jù)雷鋒網(wǎng)了解，《微軟人工智能公開課》分為三大塊，呈金字塔結(jié)構(gòu)，最底層針對所有的開發(fā)者，涵蓋認知服務Cognitive Service以及Bot Framework。中間層針對數(shù)據(jù)科學家，包括Azure Machine Learning、HDInsight、Stream Analyst等。最頂層則瞄準需要開發(fā)自己算法的研究者，主要工具有 Microsoft Cognitive Toolkit、Azure Data Science VM等，同時也支持其他框架，比如 TensorFlow、Caffee等。

嘉賓介紹

微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

洪小文博士，現(xiàn)任微軟全球資深副總裁，微軟亞太研發(fā)集團主席，兼微軟亞洲研究院院長，全面負責推動微軟在亞太地區(qū)的科研及產(chǎn)品開發(fā)戰(zhàn)略，加強微軟與中國和亞太地區(qū)學術(shù)界的合作。

洪小文博士是電氣電子工程師學會院士（IEEE Fellow），微軟杰出首席科學家和國際公認的語音識別專家。洪博士在國際著名學術(shù)刊物及大會上發(fā)表過百余篇學術(shù)論文。

以下為雷鋒網(wǎng)對嘉賓分享內(nèi)容的實錄精編。

人工智能概述

很多人都在問，我們研究人工智能的目的是什么。微軟的答案是：讓我們的應用和服務能夠擁有像人類一樣認識世界的能力，在視覺、語音、語言、知識等維度得到拓展，帶來更好的用戶體驗。

還有很多人問，人工智能該如何分類，究竟哪幾部分算人工智能。人工智能技術(shù)紛繁復雜，但微軟認為可以歸結(jié)為三大類：

大數(shù)據(jù)&機器學習
認知計算能力
對話即服務的體驗

以智能手機為例，我們與智能手機的交互是通過不斷點擊屏幕上的菜單來實現(xiàn)的；用戶需要耗費很多時間學習菜單中每個選項代表的意義。認知服務可以讓我們與機器的交互變得更加簡單直接，機器也能更好地了解用戶的意圖，不必浪費太多的溝通時間。

微軟AI的發(fā)展歷程

微軟在AI領(lǐng)域耕耘已久。1991年，微軟AI基礎(chǔ)研究院成立，致力于打造一個能夠聽懂、看懂和理解人類以及世間萬物的電腦。2007年，微軟語音部門從研究部門正式轉(zhuǎn)為產(chǎn)品部門，開啟了AI的產(chǎn)品化道路。到2014年，在天津的一個活動中，微軟系統(tǒng)已經(jīng)能夠?qū)⒂⑽难葜v實時翻譯為中文了。緊接著，2015年微軟亞洲研究院的計算機視覺系統(tǒng)首次在ImageNet上打敗了人類。這套計算機視覺系統(tǒng)對超過2000種物體進行辨認，失誤率僅為3.5%，而人類的失誤率為5.5%。當時這套神經(jīng)網(wǎng)絡(luò)共有152層，如今已經(jīng)發(fā)展到了上千層。

微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

但對于微軟來說，人類與人工智能的關(guān)系不是誰打敗誰。事實上，AI將成為人類最好的工具，能夠拓展人類的智能，讓人類完成更多的事情。一般我們理解的AI是Artificial Intelligence（人工智能），但也可以將其闡釋為Augmented Intelligence（增強智能）。未來人類與機器密切合作，就能實現(xiàn)我們理想中的Superman。微軟的愿景就是，通過API等方式讓AI這項看似高大上的技術(shù)平民化。有了微軟的認知服務API，開發(fā)者無需自己做人臉識別、年紀識別和物種識別，只要使用相應的API，就能輕松調(diào)用這些功能，在其熟悉的領(lǐng)域開發(fā)應用。

微軟認知服務API

微軟的認知服務API主要可以歸結(jié)為5大類：

視覺：從面部感官到感覺，讓對話機器人了解圖像、視頻和情緒。
語音：把語音轉(zhuǎn)換為文本，或把文本轉(zhuǎn)化為語音，了解用戶的意圖，翻譯語言，過濾噪聲以及識別說話者。
語言：教對話機器人理解復雜的自然語言指令，解析復雜的文本以及理解用戶情緒。
知識：從網(wǎng)絡(luò)、學術(shù)界，或者用戶自己的數(shù)據(jù)積累中融合豐富的知識。
搜索：通過必應API的強大功能，訪問數(shù)十億網(wǎng)頁、圖片、視頻和新聞。

微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

微軟此前和一個非營利組織達成合作，共同尋找失蹤兒童，其中就用到了視覺服務中的人臉識別。利用算法和深度學習，系統(tǒng)可以了解一個人的外貌。雖然人類在成長過程中外貌會不斷變化，但系統(tǒng)可以從數(shù)學的角度找到比例等不變的特征，從而將其辨認出來。

微軟的人臉識別API，除了可以檢測圖片中的人臉，識別其屬性；還能實現(xiàn)人臉驗證、相似人臉搜索、人臉分組、人臉辨識等功能。此外，情緒識別也是人臉識別的重要應用之一。微軟的情緒識別API并非簡單反饋對象的情緒好壞，而是返回一個分值，供開發(fā)者進行判斷。

微軟的語音API目前已經(jīng)具備了聽和說的能力，支持多國語言以及多種方言。此外，聲紋識別也是語音識別中非常重要的部分。通過聲紋識別，系統(tǒng)可以辨認出說話人是誰，這對提升語音識別的準確率非常關(guān)鍵。尤其是在嘈雜的環(huán)境中，如果系統(tǒng)可以辨認出用戶，那么就可以對背景聲和其他人的語音進行屏蔽，實現(xiàn)更好的語音識別效果。

語言和語音的關(guān)系非常緊密，語音只解決了“聽到”的問題，能夠辨認出句子中的每一個字；但要“聽懂”，了解這些句子背后的涵義，就需要用到語言能力。語言能力建立在語音的基礎(chǔ)之上。以往很多所謂的自然交互都是通過關(guān)鍵字判斷來實現(xiàn)的。比如，用戶輸入“幫我看看是否有違章”，系統(tǒng)自動檢測到關(guān)鍵字“違章”，就能得知用戶想要查詢違章記錄。而借助深度學習的語義理解，即使用戶輸入的信息中不包含關(guān)鍵字“違章”——比如輸入“幫我看看是否有違法停車”“我昨天闖紅燈了，怎么辦”，系統(tǒng)也能理解用戶的真實意圖。

“知識”能力的應用場景很多，其中最具代表性的是學校，比如尋找論文等。此外，很多企業(yè)也運用到了“知識”的能力，比如利用用戶產(chǎn)生的數(shù)據(jù)，通過深度學習，向用戶提供個性化的產(chǎn)品和服務。

機器人寫歌

將多個微軟的人工智能API整合到一起，可以開發(fā)出非常有趣的應用。比如一個叫做songbot的應用，它可以識別圖片中的內(nèi)容，自動獲取關(guān)鍵字進行歌詞創(chuàng)作，并將作品唱給你聽。

微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

以上圖為例，系統(tǒng)掃描圖片后自動獲取到“小鳥”“飛翔”“自由”“夢想”和“天空”等關(guān)鍵詞，這部分用到了視覺的能力。songbot通過學習多達20萬首歌，基于自然語言能力，理解了歌詞的結(jié)構(gòu)和組織。因此獲得關(guān)鍵詞后，可以利用機器學習重新創(chuàng)作歌詞，最后利用語音合成技術(shù)把它唱出來。

微軟人工智能公開課概覽 | 雷鋒網(wǎng)公開課

微軟人工智能公開課

為了讓開發(fā)者、數(shù)據(jù)科學家、技術(shù)愛好者和學生能夠充分利用微軟的人工智能API，開發(fā)出更強大的應用，拓展全人類的智慧，微軟特地推出了《微軟人工智能公開課》，邀請各個領(lǐng)域的專家為不同知識程度的人工智能從業(yè)人員及愛好者提供針對性的專業(yè)輔導。該課程可以通過登陸微軟虛擬學院輕松獲取。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。