丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給陳彩嫻
發(fā)送

0

金山AI團隊:從理論突破到應用場景落地

本文作者: 陳彩嫻 2020-11-09 11:29
導語:各大廠紛紛建立AI團隊,雷軍系又怎會落后?


一提起雷軍,絕大多數(shù)人首先會想到小米,對金山軟件卻知之甚少。雷軍作為金山軟件董事長,曾帶領金山度過最艱難時期。雷鋒網(wǎng)

1996年,金山軟件遭遇前有微軟、后有盜版的雙重打擊跌入谷底:1995年,微軟進入中國市場,Windows 95與OFFICE系列搶占了WPS大部分市場份額;與此同時,一張盜版光盤,640兆囊括了市面上幾乎所有主流軟件,包括金山軟件的產(chǎn)品。面對困局,金山何去何從?
雷軍苦苦思考六個月,最后決定做WPS的同時,在游戲、工具軟件領域發(fā)力,開始游擊戰(zhàn)、以戰(zhàn)養(yǎng)戰(zhàn)。1997年,金山推出《劍俠情緣I》、《WPS97》、《金山詞霸》等等功能強大的產(chǎn)品,在游戲、工具軟件與字處理系統(tǒng)領域成功制造了3個市場熱點,死里逃生。

金山AI團隊:從理論突破到應用場景落地

(WPS97發(fā)布,雷軍、求伯君演講)
回憶這段往事,雷軍曾歸納,自己最可貴的創(chuàng)業(yè)品質(zhì)有兩點:一是目標遠大,二是創(chuàng)業(yè)激情。
除此之外,雷軍系的成功還歸因于另一個重要的品質(zhì):聚焦。
這三個品質(zhì)不僅續(xù)寫著雷軍本人的傳奇創(chuàng)業(yè)故事,也在繼續(xù)引領著他的各派團隊創(chuàng)造輝煌的篇章,包括今年5月在納斯達克上市的金山云,也包括一直低調(diào)行事的金山人工智能事業(yè)部。
雷軍高度重視人工智能的發(fā)展,2017年親自指導成立了金山人工智能事業(yè)部。這所實驗室隱藏在海淀區(qū)小米科技園,集結一眾頂尖技術人才,以認知AI為核心,聚焦機器翻譯與閱讀理解。成立不過三年左右,便已在多個國際大賽中斬獲佳績。
2020年9月6日,金山集團AI Lab的SpiderNet模型在由卡內(nèi)基梅隆大學、斯坦福大學和蒙特利爾大學聯(lián)合發(fā)起的多步推理閱讀理解評測HotpotQA中榮登榜首,結束了長達一年的由美國科技公司包括微軟、谷歌等在內(nèi)的霸榜局面。
金山AI團隊究竟有何不為人知的神力?

1

HotpotQA殺出一匹黑馬

HotpotQA,又稱“火鍋問答”,是2018年由三名愛吃火鍋的中國學生發(fā)布的一個多步推理的閱讀理解數(shù)據(jù)集。相較于SQuAD的任務,HotpotQA更考察關聯(lián)判斷能力,需要模型對給定多篇文章的內(nèi)容進行深度理解,根據(jù)佐證篇章中所敘述事物的邏輯關系構建多步推理鏈,得到一個知識,然后通過問答的形式展示出來。

金山AI團隊:從理論突破到應用場景落地

(HotpotQA宣傳圖)
毫無疑問,像 SQuAD 這樣的大規(guī)模問答數(shù)據(jù)集對利用機器閱讀大量文本并回答問題取得了諸多進展。但由于數(shù)據(jù)集上的缺陷,用這些數(shù)據(jù)集訓練出來的模型并未學習到非常復雜的語言理解能力,這也正是HotpotQA希望改善的地方。
為此,HotpotQA調(diào)整了之前數(shù)據(jù)集的構建方式,除了必須使用多步推理來回答外,問題本身不會受限于任何預設的知識圖譜,對于每一個問題還收集了回答它所需要的更細粒度的支持推理線索 (supporting fact),并且迫使模型在回答問題的同時給出它基于哪些事實進行的推理,不像以前的模型只給出一個答案,知其然而不知其所以然。

而此前在SQuAD上競相投入的巨頭們,也將HotpotQA視為展示自己實力的新競技場。與一群在此前從SQuAD就“相愛相殺”的巨頭不同的是,金山AI Lab并未參加過SQuAD競賽的角逐,金山此次登頂堪稱黑馬。


2

金山奪冠技術SpiderNet分析

本次金山人工智能事業(yè)部的SpiderNet模型參加的是干擾項賽道(Distractor Setting),每個問題提供10個備選篇章。該賽道更側重于考察模型的文本推理能力,同時也是參賽隊伍最多的賽道。
SpiderNet模型采用的是深度神經(jīng)網(wǎng)絡技術,基于預訓練語言模型做了改進,更注重節(jié)點與節(jié)點之間的關聯(lián)與信息共享,就像一張蜘蛛網(wǎng)一樣,專門針對文檔內(nèi)容進行深度理解與多步推理。
為了證明模型確實利用了原文中的相關證據(jù)進行推理并提升模型的可解釋性,HotpotQA不僅要求模型給出最終答案,還要求模型給出推理所用到的佐證證據(jù)(Supporting Facts)。在評價指標上,HotpotQA評測會根據(jù)答案和佐證證據(jù)的精確匹配率(EM)和模糊匹配率(F1)求得最終的聯(lián)合精確匹配率和模糊匹配率(Joint EM / F1)。
在全部6項測評中,金山SpiderNet模型有5項指標刷新紀錄排名第一,1項指標排名第二,全面超越之前的冠軍微軟。其中,綜合模糊準確率(Joint F1)更是達到74.88。
金山AI團隊:從理論突破到應用場景落地
HotpotQA挑戰(zhàn)賽(干擾項賽道)最新榜單(截至2020年9月17日)
 
3

在AI技術落地的最后一公里“后來居上”

人工智能從誕生起便幾經(jīng)起伏,尤其近十余年來,深度學習已大規(guī)模應用于PC互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng),在搜索、電商、社交等領域已經(jīng)有諸多成功應用,從實驗室走出的AI技術,成為產(chǎn)業(yè)升級的最佳推手;然而,人工智能技術落地的“最后一公里”仍然是一個難題。
以認知為核心的人工智能是未來社會所需要的,是能夠推動社會往前進步的,也是未來發(fā)展的方向。”談到以認知為核心的人工智能技術的未來應用,金山人工智能事業(yè)部負責人李長亮博士滿懷信心。他表示,金山集團在AI上的投入非常堅定,公司給了人工智能事業(yè)部極大的信任和資源支持。
參加HotpotQA比賽的單位不僅有斯坦福大學、華盛頓大學、卡內(nèi)基梅隆大學、清華大學、北京大學等知名高校,還有來自微軟、IBM、阿里達摩院、京東等企業(yè)研究機構。同樣是關注認知智能技術,每個企業(yè)也會有著不同方向的應用。
在李博士看來,以認知為核心的人工智能技術將迎來前所未有的歷史發(fā)展機遇。像感知智能時代出現(xiàn)的專注于計算機視覺的“AI四小龍”(商湯、曠視、云從、依圖)一樣,認知智能時代也將會出現(xiàn)一批優(yōu)秀的企業(yè),將人工智能技術落地惠及社會。 
相對于早就涉足認知智能技術的其他巨頭,金山算是后來者。但AI賦能場景之繁雜、細分市場需求之細攏,前浪雖強,也難覆蓋所有行業(yè);AI技術發(fā)展日新月異,后來者與先行者實際是在同一起跑線上。
專注于某一細分領域,正是“后來居上”的秘訣。 
“金山人工智能事業(yè)部成立三年以來,我們一直在堅持以認知為核心的人工智能研究,非常聚焦?!睋?jù)李博士介紹,自成立以來,金山AI團隊便聚焦在機器翻譯、知識問答與文檔智能這三個方向,目前已開發(fā)出AIDA翻譯引擎、AIDA知識引擎以及AIDA文檔智能處理系統(tǒng)。
金山AI團隊:從理論突破到應用場景落地
除申請發(fā)明專利100余項、在ACM等國際頂級期刊會議上發(fā)表論文數(shù)十余篇,金山AI 團隊的NLP研究已在多個國際大賽中斬獲佳績:
2018年,首次參加創(chuàng)新工場AI Challenger 2018中英翻譯競賽,憑借對層次注意力機制、高斯搜索等獨特算法的創(chuàng)新,在「英中文本機器翻譯」賽道上以客觀成績領先于其他對手3個BLEU值、答辯成績超過其他隊伍30分的極大優(yōu)勢在全球800支隊伍中脫穎而出,一舉奪冠;2019年,出戰(zhàn)全球學術界公認的頂級機器翻譯比賽——WMT( Workshop on Machine Translation)英中翻譯競賽,憑借神經(jīng)機器翻譯(NMT)模型,擊敗全球50多支隊伍(包括Facebook、微軟、百度、劍橋大學等),獲得英譯中賽道人工評測冠軍;同年,金山AI團隊還登上MS COCO Image Captioning榜首,并獲得了IEEE ISI World Cup大數(shù)據(jù)競賽冠軍。這些成績象征著他們在自然語言理解上不斷在努力和突破。
金山集團人工智能事業(yè)部的成員是一群理想青年,以“構建以認知為核心的人工智能服務”為目標。團隊匯集了一大批國內(nèi)外高校的優(yōu)秀人才,他們大多畢業(yè)于清華、北大、中科院和劍橋、加州大學等國內(nèi)外名校,有著扎實的基本功和對未來美好的憧憬(此處彩蛋:偏好NLP與數(shù)學專業(yè)的同學~)。
目前,金山AI團隊在機器翻譯模塊已積累了十余種語言的雙向翻譯技術,包括6種聯(lián)合國語言和數(shù)種我國少數(shù)民族語言(蒙語、藏語、維吾爾語等),覆蓋了文學、軍事、政治、財經(jīng)、醫(yī)療、IT、機械等16個領域。除了對世界主流語言的研究,之所以增加對少數(shù)民語言的研究,李博士解釋是希望為促進民族交流貢獻一份力量。
這份責任心不僅體現(xiàn)在對社會的支持,還體現(xiàn)在對用戶數(shù)據(jù)隱私的重視與保護。依托金山30年的文檔處理經(jīng)驗,金山AI團隊在NLP研究上的優(yōu)勢無疑得天獨厚。
數(shù)據(jù)隱私令很多用戶擔憂。李博士表達了保護數(shù)據(jù)安全的明確的態(tài)度:“凡是涉及到用戶隱私的數(shù)據(jù),無論獲取成本多低,我們絕對不碰。”在他看來,這不僅是法律的底線,也是做研究的底線。不僅如此,李博士還提到,金山內(nèi)部設有專門的數(shù)據(jù)管理團隊,通過技術和制度雙保險來保證數(shù)據(jù)安全問題。
2018年,BERT語言模型出來之后,機器已經(jīng)能夠基于較好的文本理解去解決簡單的問題。2020年,GPT-3發(fā)布,又在NLP領域掀起一股小高潮。但眾所周知,訓練一個語言模型對算力、語料等條件的要求很高,成本也很大。如何“高性價比”地實現(xiàn)AI技術的最高價值?金山AI團隊選擇了一條“接地氣”的道路:“我們現(xiàn)在也是基于預訓練語言模型在開發(fā)產(chǎn)品,但我們沒有去盲目比拼預訓練語言模型,而更多是基于已有成果進行創(chuàng)新,與場景相結合,解決場景里的任務與需求。
 
4

SpiderNet模型有什么用途?

此次奪冠的SpiderNet模型可以基于對大量文檔的閱讀理解和深度挖掘來獲取知識,滿足用戶在認知方面的需求。
“假如給AI一本歷史書,然后提問:中華人民共和國是哪一年成立的?這種答案從技術角度來講比較容易獲取。但如果提問:中華人民共和國在成立過程中克服了哪些困難?AI在回答問題之前,便需要深入理解大量文檔,并進行去推理。這就考察更深層次的智能技術?!崩畈┦拷榻B道。
SpiderNet模型背后體現(xiàn)的是金山AI團隊在機器閱讀理解上所取得的突破。目前主要包括四方面的應用:合同管理、簡歷管理、智能問答、知識圖譜一站式解決方案。

1、合同管理

相信每個公司的行政人員都曾為合同的收錄與管理發(fā)愁。如果是人工處理,則需要: 第一步,提取合同上的關鍵信息,比如甲乙方的身份、合同金額等。這個過程對技術要求不高,但耗時耗力。第二步,對合同進行管理,方便查詢。在查詢某份合同時,合同管理者往往需要憑借有限的人腦記憶,從成千上萬份合同群中挨個打開、檢查。這個過程同樣耗時耗力。
而金山AI團隊閱讀理解技術可以將合同內(nèi)的關鍵信息進行結構化提取和管理,并支持一鍵查詢結果,做到事半功倍。 

2、簡歷管理

簡歷管理需求源于金山集團每年秋招收到的海量簡歷。面對上萬份五花八門的簡歷,HR需要在短時間內(nèi)進行歸類整理,提取信息,壓力很大。因此,金山AI 團隊開發(fā)了智能簡歷管理系統(tǒng),自動提取簡歷的重要信息,并對簡歷內(nèi)容進行結構化歸類和管理。。
簡歷沒有統(tǒng)一規(guī)范,求職者個人經(jīng)歷又不盡相同,所以每份簡歷迥然相異。個人基本信息(畢業(yè)院校、出生年月等)提取較簡單,但工作與項目經(jīng)歷往往描述不一,這給文檔分析增加了難度。HR若想從投遞者的描述內(nèi)容中分析候選人的水平、特長等,就需用到自然語言處理(尤其是認知)技術。而應用閱讀理解模型,對簡歷進行深度理解與分析,可以方便HR查詢所需信息,減輕HR的工作量。

3、垂直領域智能問答

談及如今的信息泛濫現(xiàn)象,李博士認為:“我們一方面被海量信息‘淹死’,一方面又因為無法找到有用信息而‘餓死”。
搜索引擎在很多情況下并不能第一時間滿足人的知識獲取需求。李博士表示,目前互聯(lián)網(wǎng)上只有少部分信息可以凝練成真正有用的知識。當你想在網(wǎng)上獲取某種知識時,不僅查找費力,查到的結果也無法保證可信度。 
而金山AI 團隊的AIDA知識問答引擎就致力于解決這個痛點。輸入問題,一鍵生成問題的高可信答案。 
就目前的技術而言,收集世上所有知識來建立一個通用的知識問答系統(tǒng)是不可能的,因此,李博士及其團隊決定,先聚焦在某個特定領域來研究知識問答。目前,AIDA知識問答引擎主要圍繞政經(jīng)領域的智能文檔挖掘和知識問答。
4、知識圖譜一站式解決方案
IDC發(fā)布的《2025 年中國將擁有全球最大的數(shù)據(jù)圈》中提到:全球數(shù)據(jù)領域(創(chuàng)建、捕獲、復制和使用的數(shù)字數(shù)據(jù))將從2018年的約33 ZB增長到2025年的175 ZB(其中1ZB等于1萬億GB)。如此龐大的數(shù)據(jù)量,對于組織與機構來講,如不能實現(xiàn)有效治理與知識運用,將會成為一場信息爆炸的災難。
信息爆炸的時代特征加之認知技術的不斷發(fā)展,李博士提出了“數(shù)據(jù)熵減,知識宏加”的數(shù)據(jù)治理與知識運用愿景,并最終帶領團隊基于數(shù)據(jù)治理、知識構建、知識運用三個維度開發(fā)出了AIDA知識圖譜一站式解決方案。
該套解決方案聚焦于數(shù)據(jù)治理、知識價值挖掘、知識應用三個維度;具備知識建模、知識抽取、知識存儲、實時更新、知識應用的一站式技術服務能力。AIDA宏識知識建模可視化系統(tǒng),可實現(xiàn)一鍵自動建模,支持任意領域的知識圖譜節(jié)點、關系、屬性的定義;AIDA宏圖圖譜構建可視化系統(tǒng),可實現(xiàn)基于結構化數(shù)據(jù)與非結構化數(shù)據(jù)的知識圖譜初始化構建;AIDA宏聆知識實時更新系統(tǒng),支持基于結構化、非結構化數(shù)據(jù)的知識自更新,確保知識圖譜的實時性,大大降低人工成本的支出;AIDA宏知知識應用解決方案,支持智能問答、智能搜索、知識庫建設、循證輔助決策等多維度知識應用,支持企業(yè)定制化開發(fā),同時具備良好的自適應能力,領域遷移成本極低。
 
5

展望未來

今年5月金山云成功上市時,各界再次將目光投向雷軍系的“游擊戰(zhàn)”商業(yè)戰(zhàn)略。
面對國內(nèi)其他大廠如阿里云、騰訊云、百度云甚至華為云的激烈競爭與較勁,雷軍曾公開表態(tài):“我們的態(tài)度很低,大的巨頭吃肉我們喝湯,我們甘愿當小弟。只要3-5家里面有我們,我們就一定能成功?!?/span>
同樣的“低姿勢、高聚焦”態(tài)度,也體現(xiàn)在不卑不亢的金山AI團隊上。
盡管金山人工智能事業(yè)部在多個國際大賽中連連奪冠,但一直處事低調(diào),專注于以認知為核心的人工智能研究,到默默嘗試場景落地。雷鋒網(wǎng)
在如“神仙打架”般的AI角逐場上,“愣頭青”一樣從0開始鋪墊的長線戰(zhàn)略也許并不是明智的決定。面對各方拉架勢力,站在對的巨人肩膀上,精準定位、結合實際、謀求技術應用,才是后AI時代的發(fā)展真理。
而金山AI團隊的研究與努力,便一直在踐行這一理念。雷鋒網(wǎng)
有遠大目標,保持研究的熱情,聚焦在特定的領域,相信在不久的將來,這個團隊將給我們帶來新的喜訊!


                   

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

金山AI團隊:從理論突破到應用場景落地

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說