1
本文作者: 宗仁 | 2016-08-16 18:00 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
李航,華為技術有限公司諾亞方舟實驗室主任,北京大學、南京大學兼職教授。他日本京都大學電氣電子工程系畢業(yè),日本東京大學獲得計算機科學博士學位。李航博士的研究方向包括信息檢索,自然語言處理,統(tǒng)計機器學習,及數(shù)據(jù)挖掘。他一直活躍在相關學術領域,曽出版過三部學術專著,并在頂級國際學術會議和國際學術期刊上發(fā)表過上百篇學術論文,擁有40項授權美國專利。
近日,在雷鋒網(wǎng)舉辦的CCF-Gair大會上,李航接受了雷鋒網(wǎng)在后臺關于AIR方面的對話,闡述了華為在大數(shù)據(jù),機器學習,人工智能三塊工作的內(nèi)部聯(lián)系。
華為的大數(shù)據(jù)主要是用在幫華為,電信,運營商去提高效率,基于這些企業(yè)多年積累的大數(shù)據(jù)去解決業(yè)務、運營上的各種問題,做智能化升級的事情,用大數(shù)據(jù)去解決各種業(yè)務遇到的問題,公司里面所有的業(yè)務應該是能(和我們實驗室)聯(lián)系在一起的。
以客戶之一上海聯(lián)通舉例,那里有500萬的用戶,通過這些手機大量的數(shù)據(jù)來確定這些人在一天內(nèi)的流動,然后我們可以去做很多的事情……
通常我們所說的大數(shù)據(jù)很多時候都是小數(shù)據(jù),比如你自己手機里的數(shù)據(jù)你不愿意給別人去看,把所有小數(shù)據(jù)加起來才是大數(shù)據(jù),但你不能隨便把每個人的數(shù)據(jù)都拿出來,有版權,有隱私等各種問題。
而訓練模型的時候需要大規(guī)模的數(shù)據(jù),這時我們只能學一個通用的模型,學好了再把它遷移到每一個個體的數(shù)據(jù)案例上,再進一步去學習,目前這個(遷移學習應用)還沒有具體的案例。
但具體地,現(xiàn)在華為基于大數(shù)據(jù)用機器學習在做的事情有:
其一,用文字或者自然語言檢索分類照片。該方式不使用人工或機器學習的形式預先為每個照片設置一個標簽,然后通過標簽來處理照片。而是采用深度學習模型的方式處理照片,利用照片承載的內(nèi)容產(chǎn)生自然分類。
其二,神經(jīng)機器翻譯。
其三,神經(jīng)響應機,即一個自動生成式系統(tǒng),這是業(yè)界第一臺公開發(fā)表的能夠自動生成回復的智能應答機,而不是通過大數(shù)據(jù)搜索配對實現(xiàn)的。
主要是研究的時候驅(qū)動力會著重跟公司的業(yè)務掛鉤。
這些研究有長期的有短期的。
比如公司未來十年發(fā)展業(yè)務方向需要什么樣的技術,然后反推過來需要什么樣的技術。(實驗室研究方向,跟華為其它業(yè)務一樣,還是客戶導向的?)對,可以這樣說。
前一任主任楊強教授和您的管理風格有何不同?
每個人都有自己的作風,大的方向是一樣的,大家都是想要把自己的研究做好,把研發(fā)推動。他也是學者,我也是學者。
我們的背景不太一樣,他的方向主要在遷移學習,我的方向主要在自然語義處理,信息檢索等,方向會跟人研究的內(nèi)容和興趣關聯(lián)比較大。
四年前我們在一起建立了華為諾亞方舟實驗室,現(xiàn)在各自的領域大家還堅持在做,這個是不會有變化的。
沒有絕對的比率,實驗室的目標還是圍繞公司業(yè)務來的。
如果是10年規(guī)劃的產(chǎn)品,目的是圍繞未來去做,去投資,反過來就是我們需要在哪些領域去做嘗試。但如果光瞄準未來10年,目標就容易很空。
如果是3年到5年規(guī)劃的產(chǎn)品,則是要有一些階段性的成果,甚至還有一年,半年要出階段性成果的,這個時候會根據(jù)情況去調(diào)整,但大的方向往往都是比較明確的,主要關注人工智能、機器學習、數(shù)據(jù)挖掘等前沿科技領域的研究。
然后根據(jù)這三個方向去決定,要往哪個領域加大力度去投入,要跟哪些實際的產(chǎn)品去合作,平衡好長期研究和實際應用開發(fā)的兩類項目,相對來說,產(chǎn)品開發(fā)的比例會大一些。
現(xiàn)在華為有兩個是產(chǎn)品(一款產(chǎn)品是華為手機上的App市場。另一款產(chǎn)品是華為“手機服務”。)另外也有在做的業(yè)界領先的深度學習,自然語義處理相關的一些合作,這些雖然還在技術研發(fā)階段,快一點一兩年也能成功。
人工智能現(xiàn)在的核心技術就是機器學習,這兩者目前幾乎是畫等號的,未來可能還有其它的手段可以做地更好,只是現(xiàn)在沒看到而已。
機器學習往往需要數(shù)據(jù),或者說大數(shù)據(jù),跟大數(shù)據(jù)相關。
很多大數(shù)據(jù)在沒被利用的時候就是一些垃圾,如果能被有效利用,用機器學習的技術,基于此做一些智能型的東西,它就是人工智能了。
人工智能的手段基本都是這個套路,基本上都是跟這三個(大數(shù)據(jù),機器學習,人工智能)相關的。具體怎么稱呼,主要看你強調(diào)什么東西。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。