0
從2012年算起,人工智能的再次爆發(fā)已經(jīng)進(jìn)入了第九個年頭,人們對“人工智能是什么”也從最初的懵懂、憧憬、恐懼,逐漸走向深度的認(rèn)識。在2018年人們還在討論人工智能什么時候會再次進(jìn)入寒冬,但到了2019年人們對“寒冬”之說已經(jīng)不再感冒,而是普遍在追尋“如何讓人工智能可理解”或者“AI所引發(fā)的隱私、安全、倫理問題”。
2020年,人工智能依舊在蓬勃發(fā)展,并在各行各業(yè)產(chǎn)生了深刻的影響。2020年還剩下10個月的時間,讓我們?nèi)ヮA(yù)期,人工智能會有哪些重要的趨勢呢? CB insights曾就此問題做了一個判斷,并給出人工智能的九個重要研究和應(yīng)用趨勢。AI 科技評論在一定程度上認(rèn)同這些判斷,針對這 9 個趨勢,我們將做以下分析。
CB insights認(rèn)為商業(yè)性質(zhì)的Deepfake可能會興起,死去的名人將會“復(fù)活”,零售業(yè)以及營銷的方式也會得到改變。
前些日子,Deepfake技術(shù)現(xiàn)身印度選舉,被候選人用于競選拉票的宣傳材料。雖然此候選人最終以慘敗收場,但這意味著Deepfake點(diǎn)燃的AI換臉之火有逐漸升溫的跡象。
雖然此技術(shù)出現(xiàn)在政治視頻以及色情視頻中會帶來負(fù)面的影響,但是對于媒體、電影公司來說卻是千載難逢的機(jī)會。例如好萊塢的一些電影公司正在想方設(shè)法“數(shù)字復(fù)活”五十年代中的電影人物。
(雷鋒網(wǎng))
在商業(yè)層面,Deepfake將會變的更加個性化,提升電子商務(wù)體驗(yàn)和虛擬在線試用;廣告投放也會朝著超定向方向發(fā)展,例如按照需求合成視頻,并配備相應(yīng)的方言;創(chuàng)意流程也會變得自動化,例如“補(bǔ)拍”電影續(xù)集。
從技術(shù)層面上講,Deepfake技術(shù)也在突飛猛進(jìn)。就在近期,北京大學(xué)聯(lián)合微軟研究院分別提出了FaceShifter和Face X-Ray,前者是一種高保真度、可識別遮擋的換臉工具,后者則是能夠檢測偽造人臉圖像的工具。 其中經(jīng)過訓(xùn)練的FaceShifter可以無需任何手動注釋,以自我監(jiān)督的方式恢復(fù)異常區(qū)域,自適應(yīng)地集成身份和人臉合成屬性。
而Face X-Ray不光能判斷是否是合成圖片,還能指出哪個地方是合成的,即兼?zhèn)渥R別+解釋兩種功能。
這兩個技術(shù)號稱 AI換臉界的“利矛”和“堅盾”,在業(yè)界取得了領(lǐng)先的結(jié)果,另外值得注意的是其所需的數(shù)據(jù)比以前的方法少得多。
所以在Deepfake問題上,2020 年的發(fā)展趨勢主要包括:
1)Deepfake在一攻一防的斗爭中逐漸進(jìn)步,小數(shù)據(jù)、無監(jiān)督的訓(xùn)練方法將成為模型的主流,傳統(tǒng)耗時耗力的計算機(jī)生成圖像技術(shù)也將逐漸被取而代之。
2)Deepfake將改變商業(yè)模式,廣告營銷將會變得更加個性化,電影創(chuàng)作不再局限于真實(shí)拍攝。
傳統(tǒng)黑客主要是通過發(fā)現(xiàn)系統(tǒng)漏洞從而進(jìn)行系統(tǒng)侵入。但進(jìn)入人工智能時代后,黑客、白客之間的攻防戰(zhàn)爭也發(fā)生巨大的變化。
隨著人工智能的崛起,AI漸漸被用于自動檢測和打擊惡意軟件,可以學(xué)習(xí)發(fā)現(xiàn)可疑行為,并在可能影響任何系統(tǒng)之前阻止網(wǎng)絡(luò)攻擊,同時使得人類避免一些不必要的工作量。
但是攻擊一方也可以使用相同的技術(shù)來增強(qiáng)他們的攻擊方法,特別是犯罪分子將之武器化,這些惡意軟件甚至可以逃避最好的網(wǎng)絡(luò)安全防御并感染計算機(jī)網(wǎng)絡(luò),甚至可以僅在攝像機(jī)檢測到目標(biāo)的人臉時發(fā)動攻擊。
這意味著在2020年,未來的黑客可能在兩個方面發(fā)力:
1、欺騙規(guī)模上升到系統(tǒng)級別;
2、利用AI發(fā)起更為復(fù)雜的攻擊。
例如在2019年,Skylight Cyber的研究人員找到了一種方法可以發(fā)現(xiàn)AI模型中的固有偏見,利用這種偏見可以創(chuàng)建出“后門”,使得惡意軟甲繞過 AI 防火墻,騙過殺毒軟件。
這也就是說,如果能夠理解AI模型的工作原理,基于其特定功能設(shè)計攻擊武器,就能夠愚弄系統(tǒng)。 隨著Skylight Cyber這種AI公司越來越多,消費(fèi)者和企業(yè)保護(hù)的級別固然會上升,但是針對AI特有弱點(diǎn)的新一批黑客和軟件也會隨著出現(xiàn)。
(雷鋒網(wǎng))
另一方面,黑客也可能會從數(shù)據(jù)的角度來愚弄AI,即破壞AI算法的訓(xùn)練數(shù)據(jù),使得AI產(chǎn)生偏見,影響其對網(wǎng)絡(luò)中正常行為和惡意行為的區(qū)分。
利用語音合成的犯罪案件 當(dāng)網(wǎng)絡(luò)安全研究員越來越多的使用AI防御攻擊時,AI本身也會被用來制造更加復(fù)雜,更有針對性的網(wǎng)絡(luò)攻擊。例如Deepfake生成的語音和合成的語音越來越逼真。
在歐洲,已經(jīng)發(fā)生了一些黑客利用AI模仿公司CEO給員工打電話然后讓其轉(zhuǎn)賬的案件。 雖然在現(xiàn)實(shí)世界中利用AI來攻擊的犯罪案件尚未有報道,但是早在2018年,IBM就開發(fā)了一種名為Deeplocker的深度學(xué)習(xí)驅(qū)動的惡意軟件,可以繞過網(wǎng)絡(luò)安全保護(hù)來進(jìn)行攻擊。
該軟件被描述為“一種由AI驅(qū)動的具有高度針對性和規(guī)避性攻擊工具的新型惡意軟件”,目的是了解現(xiàn)有的AI模型是如何與惡意軟件技術(shù)相結(jié)合,從而創(chuàng)造出一種新的攻擊類型。 此技術(shù)將黑盒AI的傳統(tǒng)弱點(diǎn)變成了一種優(yōu)勢,在目標(biāo)物未出現(xiàn)之前,可以隱藏在普通的應(yīng)用軟件中,感染掉上百萬的系統(tǒng)也不會被察覺。
這個 AI 模型只有在識別出特定的標(biāo)準(zhǔn)時,才會“解鎖”并開始攻擊。 當(dāng)然,除了AI型的黑客,使用量子計算資源的量子黑客、利用大數(shù)據(jù)進(jìn)行分析的大數(shù)據(jù)黑客等也將逐漸浮出水面。 所以在技術(shù)層面,2020 年黑客發(fā)展趨勢主要包括:
1)AI本身也會被用來制造更加復(fù)雜,更有針對性的網(wǎng)絡(luò)攻擊。
2)由于AI的黑盒性質(zhì),網(wǎng)絡(luò)攻擊將會變得更加隱蔽和猛烈。
AutoML 作為一套自動化設(shè)計和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具,能夠降低企業(yè)的進(jìn)入門檻,使得技術(shù)更加“平民化”。 從數(shù)千個特定任務(wù)中設(shè)計或搜索正確的神經(jīng)網(wǎng)絡(luò)框架整個過程非常耗時,尤其是在為更加復(fù)雜的場景(例如自動駕駛,需要兼具速度和準(zhǔn)確率)設(shè)計AI 架構(gòu)時,就更非易事。
對此,神經(jīng)架構(gòu)搜索(NAS)應(yīng)運(yùn)而生,可自動化為給定任務(wù)找到最佳 AI 設(shè)計的過程。2017年,谷歌正式將其命名為“AutoML”。谷歌在當(dāng)時便指出,AutoML 將啟發(fā)新型神經(jīng)網(wǎng)絡(luò)的誕生,并且還能夠讓非專家也能夠根據(jù)他們的特殊需求創(chuàng)建相應(yīng)的神經(jīng)網(wǎng)絡(luò)。
自此之后,AutoML 的應(yīng)用越發(fā)廣泛,在數(shù)據(jù)準(zhǔn)備、訓(xùn)練、模型搜索、特征工程等 AI 設(shè)計中都發(fā)揮著巨大的作用,極大地推動了 AI 技術(shù)的普及化。
總體而言,AutoML 主要具備兩個主要優(yōu)勢:
1)可緩解人才短缺問題:目前 AI 專家還是處于非常短缺的狀態(tài),而AutoML 則會極大地降低非專家以及企業(yè)的技術(shù)使用門檻,從而推動 AI 技術(shù)的普及和推廣。
2)可節(jié)省成本和降低復(fù)雜性:即便對于專家而言,設(shè)計神經(jīng)網(wǎng)絡(luò)都是一個費(fèi)時費(fèi)力的過程。AutoML 在降低計算和試錯成本的同時,開發(fā)的解決方案也更勝一籌。
隨著 AI 技術(shù)越發(fā)普及化和平民化,AutoML將繼續(xù)大顯身手。 而在未來的研究方向上,主要可以從算法方向和理論方向著手:
1)在AutoML算法上,未來的工作如果能在效率提升、泛化性、全流程的優(yōu)化、面對開放世界、安全性和可解釋性這 5 個方向上取得突破,將會有較大的價值。
2)在AutoML理論研究上,目前相關(guān)的研究還較少,對自動機(jī)器學(xué)習(xí)的泛化能力及適用性也不是很清楚。因而,一方面要回答目前自動機(jī)器學(xué)習(xí)算法的適用性和泛化能力,另一方面也要回答哪些問題類存在通用的機(jī)器學(xué)習(xí)算法上和更廣泛問題空間上的自動機(jī)器學(xué)習(xí)算法的可行性。
聯(lián)邦學(xué)習(xí)的概念最初是由Blaise等人于2017年在Google AI Blog上發(fā)表的一篇博文中首次提出。
自提出至今,相關(guān)研究甚囂塵上。 聯(lián)邦學(xué)習(xí)之所以能夠在如此短的時間里迅速由一個構(gòu)想變?yōu)橐婚T學(xué)科,主要原因在于聯(lián)邦學(xué)習(xí)技術(shù)作為一種學(xué)習(xí)范式,能夠在確保用戶數(shù)據(jù)隱私的同時解決“數(shù)據(jù)孤島”問題。
(雷鋒網(wǎng))
無需數(shù)據(jù)收集,即可改進(jìn)AI模型 相對于傳統(tǒng)的AI模型,聯(lián)邦學(xué)習(xí)更像針對當(dāng)前人工智能發(fā)展所面臨的困境的新范式,例如:
1、在聯(lián)邦學(xué)習(xí)的框架下,各參與者地位對等,能夠?qū)崿F(xiàn)公平合作;
2、數(shù)據(jù)保留在本地,避免數(shù)據(jù)泄露,滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求;
3、能夠保證參與各方在保持獨(dú)立性的情況下,進(jìn)行信息與模型參數(shù)的加密交換,并同時獲得成長;
4、建模效果與傳統(tǒng)深度學(xué)習(xí)算法建模效果相差不大;
5、聯(lián)邦學(xué)習(xí)是一個閉環(huán)的學(xué)習(xí)機(jī)制,模型效果取決于數(shù)據(jù)提供方的貢獻(xiàn)。 以上優(yōu)點(diǎn)顯然給解決數(shù)據(jù)隱私和安全問題提供了一種新的路徑,而在具體應(yīng)用層面,英偉達(dá)的醫(yī)療硬件和軟件框架Clara已經(jīng)能夠支持聯(lián)邦學(xué)習(xí),當(dāng)前已經(jīng)有美國放射學(xué)院、MGH、BWH臨床數(shù)據(jù)科學(xué)中心以及UCLA Health 在平臺上訓(xùn)練相關(guān)算法。
所以,在技術(shù)上,確實(shí)可以保證合法的進(jìn)行聯(lián)邦學(xué)習(xí),并且是有效果的。因此聯(lián)邦學(xué)習(xí)像一個操作系統(tǒng),它的特點(diǎn)是多方合作,只有多方都認(rèn)可才能發(fā)揮其威力。 所以接下來,聯(lián)邦學(xué)習(xí)在2020年會繼續(xù)成為一種火熱的研究趨勢:
1)不僅在醫(yī)療領(lǐng)域,金融領(lǐng)域,工業(yè)界也會加大力度布局聯(lián)邦學(xué)習(xí),接下來跨領(lǐng)域合作、跨國合作將成為常態(tài)。
2)數(shù)據(jù)隱私問題、小數(shù)據(jù)問題得到緩解,跨設(shè)備模型訓(xùn)練成為解決方案。
智慧城市最重要的是利用各種信息技術(shù)或創(chuàng)新概念,將城市的系統(tǒng)和服務(wù)打通、集成,以提升資源運(yùn)用的效率。
從技術(shù)發(fā)展的視角,智慧城市建設(shè)要求通過以「移動技術(shù)」為代表的物聯(lián)網(wǎng)、云計算等新一代信息技術(shù)應(yīng)用實(shí)現(xiàn)全面感知、泛在互聯(lián)、普適計算與融合應(yīng)用。
而 IoT 和機(jī)器學(xué)習(xí)的興起顯然為其提供了支持,例如使用機(jī)器學(xué)習(xí)來為通勤行為建模,并關(guān)注影響通勤方式選擇的因素等;使用機(jī)器學(xué)習(xí)分析傳感器數(shù)據(jù)減少溫室氣體排放和更智能的資源管理。
當(dāng)然智慧城市涉及領(lǐng)域之廣,絕不是一家企業(yè)能夠掌握,即使是萬億美元的 Al 巨頭Alphabet也只有通過聯(lián)手政府,才能在眾多城市創(chuàng)造新的街區(qū),規(guī)劃房地產(chǎn)、公共能源設(shè)施、交通等布局。
例如,去年第二季度,Alphabet 旗下子公司 Sidewalk Labs 發(fā)布了一份 1500 頁的方案,其中詳述了如何通過與政府和其他企業(yè)的合作,以 13 億美元在多倫多打造一個智慧城市的項(xiàng)目。
項(xiàng)目的重點(diǎn)和亮點(diǎn)就集中在 AI 在政府和城市規(guī)劃的應(yīng)用上。 總而言之,在2020年,智發(fā)展慧的城市發(fā)展會在協(xié)作和技術(shù)兩方面開花:
1)在合作層面必須得到政府青睞,政府的加入將弱化企業(yè)不成比例的前期創(chuàng)新成本
2)在技術(shù)層面必須優(yōu)化端到端的解決方案,擁有機(jī)器學(xué)習(xí)的城市開發(fā)工具、自動駕駛汽車技術(shù)以及建筑能源管理的AI企業(yè)將會極具競爭力。
計算密集型的 AI 技術(shù),不僅需要更加智能和可持續(xù)化的解決方案,還應(yīng)該有助于應(yīng)對全球日益上升的能源需求。
AI 領(lǐng)域的進(jìn)展往往都是自上而下的,比如說由科技巨頭開發(fā)出某些 AI 工具,然后開源給其他人,造成這一現(xiàn)象的原因之一便是 AI 研究的計算密集性。
據(jù)統(tǒng)計表明,谷歌在2018 年的BigGAN實(shí)驗(yàn)中用來創(chuàng)建狗、蝴蝶和漢堡的超現(xiàn)實(shí)圖像所消耗的電量“相當(dāng)于每個美國家庭在近6個月的時間里所用的總電量”。如此的耗電量著實(shí)令人震驚!
隨著AI 能源消耗的持續(xù)走高趨勢,節(jié)約能源將會是 AI 在 2020 年乃至未來的重要研究課題。用 AI 技術(shù)節(jié)約能源主要可從以下三個方面著手:
1)硬件公司將會聚焦于為機(jī)器學(xué)習(xí)研究提供“超低功耗”的設(shè)備,與此同時能源效用會成為邊緣計算的主要考量點(diǎn)。
2)將 AI 應(yīng)用于公用事業(yè)規(guī)模的能源生產(chǎn):更多的云計算巨頭將轉(zhuǎn)向使用可持續(xù)發(fā)展的能源,并利用 AI 技術(shù)來增加可再生能源產(chǎn)出以及精簡數(shù)據(jù)中心的運(yùn)營。
3)精簡發(fā)電和油氣等業(yè)務(wù):人工智能能夠預(yù)測可再生能源產(chǎn)出、自動化電網(wǎng)管理、幫助油井精確鉆探,以及為智能家居和商業(yè)建筑提供可持續(xù)能源管理解決方案。
如果沒有足夠的數(shù)據(jù)來訓(xùn)練“數(shù)據(jù)饑渴”的深度學(xué)習(xí)算法,有兩種解決方法:生成合成數(shù)據(jù),或者開發(fā)能從小數(shù)據(jù)中學(xué)習(xí)的AI 模型。 生成合成數(shù)據(jù)的方法在自動駕駛領(lǐng)域應(yīng)用得比較多,即在模擬環(huán)境中合成暴風(fēng)雪、異常行人行為等現(xiàn)實(shí)世界中難以獲得的圖像數(shù)據(jù)。
開發(fā)能從小數(shù)據(jù)中學(xué)習(xí)的AI 模型方法,具體方法如常用于計算機(jī)視覺任務(wù)的遷移學(xué)習(xí),即先在擁有大量標(biāo)準(zhǔn)數(shù)據(jù)的任務(wù)上訓(xùn)練 AI 算法,再將算法學(xué)到的知識遷移到另一個數(shù)據(jù)很少的任務(wù)上。 雖然遷移學(xué)習(xí)在計算機(jī)視覺任務(wù)上起到了很大的作用,但是在NLP 任務(wù)上,由于普遍缺乏標(biāo)注數(shù)據(jù),該方法目前還無法起到很好的效果。
而另一種方法——自監(jiān)督預(yù)訓(xùn)練,則能較好地應(yīng)對NLP 領(lǐng)域的特殊性。 谷歌的 BERT 就是自監(jiān)督預(yù)訓(xùn)練一個很好的案例,讓 AI 語言模型不僅能夠根據(jù)前面的詞預(yù)測詞,而且還預(yù)測后面的詞,即能夠?qū)崿F(xiàn)對上下文的雙向理解。
Yann LeCun領(lǐng)導(dǎo)的Facebook 人工智能部門便一直在從事自監(jiān)督方面的研究。一個案例是,對語言模型進(jìn)行預(yù)訓(xùn)練,然后對模型進(jìn)行微調(diào)來應(yīng)用于識別仇恨言論。
在解決小數(shù)據(jù)問題上,2020 年的發(fā)展趨勢主要包括:
1)隨著自監(jiān)督技術(shù)的發(fā)展,NLP 領(lǐng)域會再度成為萬眾矚目的焦點(diǎn)。下游的NLP 應(yīng)用如聊天機(jī)器人、機(jī)器翻譯以及類人寫作等,將會茁壯成長。
2)大型科技公司依舊會領(lǐng)銜技術(shù)的發(fā)展。開發(fā)預(yù)訓(xùn)練語言模型也是計算密集的,因而在小數(shù)據(jù)的 AI 模型開發(fā)上,也將遵循“自下而上”的規(guī)律,即由科技巨頭公司將開發(fā)成果開源給下游應(yīng)用的研究者使用。
3)生成真實(shí)假數(shù)據(jù)的合成數(shù)據(jù)方法和工具將會為那些不像巨頭公司一樣有海量數(shù)據(jù)的小公司,提供更加公平的競爭環(huán)境。
結(jié)合經(jīng)典機(jī)器學(xué)習(xí)算法和量子 AI 的混合模型,不久后將得到實(shí)際應(yīng)用。 量子機(jī)器學(xué)習(xí)借鑒了傳統(tǒng)機(jī)器學(xué)習(xí)的原理,不過算法在量子處理器上運(yùn)行,不僅在速度上要遠(yuǎn)快于一般的神經(jīng)網(wǎng)絡(luò),還能克服阻礙了當(dāng)前在海量數(shù)據(jù)上做AI 研究的硬件限制。
無論是科技巨頭還是量子初創(chuàng)公司都正在研究這種混合方法,即其中一部分任務(wù)由運(yùn)行在普通計算機(jī)上的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)完成,另一部分任務(wù)則由量子神經(jīng)網(wǎng)絡(luò)(QNN)進(jìn)行增強(qiáng)。
例如谷歌 AI 團(tuán)隊自2013年開始就在嘗試為量子計算機(jī)開發(fā)算法,而最近的目標(biāo)則是在現(xiàn)有的量子設(shè)備上開發(fā)混合的量子—經(jīng)典機(jī)器學(xué)習(xí)技術(shù)。
他們堅信,雖然目前關(guān)于量子神經(jīng)網(wǎng)絡(luò)的研究還是理論上的,但是在不遠(yuǎn)的將來,理論上的架構(gòu)將在量子計算機(jī)上得到實(shí)現(xiàn)和驗(yàn)證。 2020 年,在量子機(jī)器學(xué)習(xí)方面可以嘗試的方向是:
1)針對量子計算和 AI 這兩種世上最強(qiáng)大的計算范式,最開始可以嘗試與經(jīng)典計算機(jī)協(xié)作的方法來解決現(xiàn)實(shí)問題;
2)量子云計算將會成為云計算戰(zhàn)場的前線,亞馬遜、谷歌、IBM 和微軟等玩家將會加大對量子云計算的投入,與此同時,量子計算將會與傳統(tǒng) GPU和CPU 協(xié)作增加云計算的附加值。
實(shí)際上,自然語言處理和基因組都是由序列數(shù)據(jù)所構(gòu)成的,AI 算法在自然語言處理領(lǐng)域得心應(yīng)手,也將會在基因領(lǐng)域博大顯身手。
在自然語言處理的自監(jiān)督學(xué)習(xí)中,AI 算法能夠預(yù)測句子中缺失的詞,正如句子是多個詞的序列,蛋白質(zhì)也是特定順序的氨基酸序列。Facebook AI 研究院和紐約大學(xué)的研究者就曾將同樣的自監(jiān)督學(xué)習(xí)原理也應(yīng)用到蛋白質(zhì)序列的數(shù)據(jù)上。
不同于 NLP 中使用自監(jiān)督學(xué)習(xí)來預(yù)測缺失詞,在蛋白質(zhì)序列數(shù)據(jù)上,AI 要預(yù)測的是缺失或者隱藏的氨基酸。
而最近最受關(guān)注的一項(xiàng)進(jìn)展便是DeepMind 在基因組方面取得的進(jìn)展,他們開發(fā)出了名叫Alphafold 的算法,能夠理解基因組中最復(fù)雜的難點(diǎn)之一——蛋白質(zhì)折疊,并最終確定蛋白質(zhì)的 3D 架構(gòu)。
而Alphafold 其實(shí)就借用了自然語言處理的概念來預(yù)測氨基酸之間的距離和角度。 在借鑒 NLP 的概念來理解生命體方面,未來可嘗試的方向有:
1)更好地設(shè)計藥物:現(xiàn)在有一些藥物以蛋白質(zhì)為靶點(diǎn),然而蛋白質(zhì)會隨著環(huán)境的不同發(fā)生動態(tài)變化,因此理解蛋白質(zhì)結(jié)構(gòu)以及折疊方式,將能更好地開發(fā)此類藥物。
2)AI 算法有助于對蛋白質(zhì)建模以及理解其架構(gòu),而無需深入了解域內(nèi)知識。
3)在醫(yī)療和材料科學(xué)領(lǐng)域針對特定功能開發(fā)和優(yōu)化新的蛋白質(zhì)設(shè)計,將成為可能。
參考:https://www.cbinsights.com/research/report/ai-trends-2020/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。