0
本文作者: 李揚霞 | 2021-12-23 10:48 | 專題:GAIR 2021 |
【雷峰網(wǎng)】2021年12月9日-2021年12月11日,2021第六屆全球人工智能大會(GAIR 2021)于深圳開幕。本屆大會由粵港澳大灣區(qū)人工智能與機器人聯(lián)合會、雷峰網(wǎng)(公眾號:雷峰網(wǎng))聯(lián)合主辦,深圳市人工智能與機器人研究院、深圳市機器人協(xié)會、深圳市人工智能學會支持。
作為中國最具影響力和前瞻性的前沿科技活動之一, GAIR 大會已經(jīng)度過了五次精彩而又輝煌的歷程,見證數(shù)次潮水的轉(zhuǎn)向,成為目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高的學術(shù)、工業(yè)和投資領(lǐng)域跨界盛會。
大會第二天,以《直面數(shù)據(jù)安全風險和挑戰(zhàn);挖掘隱私計算的100%可為》為主題的“數(shù)據(jù)安全與隱私計算”分論壇吸引了來自全國各地的專家、學者、企業(yè)家、投資人等,大家齊聚一堂共話新時代下“數(shù)據(jù)安全與隱私計算”的當下與未來。
其中瑞萊智慧RealAI首席架構(gòu)師徐世真帶來了題為「隱私計算助力構(gòu)建AI新基建」的精彩演講。演講要點可概括為以下幾個方面:
AI和隱私計算息息相關(guān),隱私計算是AI能力的重要補充,AI是隱私計算的核心需求。從場景角度來看,隱私計算通常和AI緊密相關(guān),AI可以看成隱私計算的上層應用與核心技術(shù)。
隱私計算面臨的困境主要有生態(tài)壁壘、安全性、可用性、計算性能。
借鑒AI發(fā)展模式,隱私計算的技術(shù)路徑可走底層編譯路線實現(xiàn)兼容互通,通過優(yōu)化底層密碼庫優(yōu)化性能;產(chǎn)業(yè)路徑需要逐場景落地,并根據(jù)不同的場景選擇不同的技術(shù)路線。
徐世真認為只有深度結(jié)合AI,使業(yè)務(wù)方從隱私計算中獲益,才能把隱私計算從成本項變成營收項,保證企業(yè)有可持續(xù)的意愿度,保證數(shù)據(jù)價值閉環(huán)操作。
隱私計算僅僅是企業(yè)合規(guī)建設(shè)的一環(huán),需要在法律法規(guī)的框架下進行。
瑞萊智慧RealAI首席架構(gòu)師徐世真
以下是徐世真演講全文,雷峰網(wǎng)做了不改變原意的整理與編輯:
我是來自瑞萊智慧的徐世真,今天我的演講主題是《隱私計算助力構(gòu)建AI新基建》。
瑞萊智慧是孵化自清華大學人工智能研究院的AI 企業(yè),專注于人工智能領(lǐng)域的安全問題。隨著人工智能被納入新基建的范疇,安全可控成為一項核心的基礎(chǔ)能力,其中包括數(shù)據(jù)安全、算法可靠、應用可控。今天我主要分享一下公司在數(shù)據(jù)安全、隱私計算方面的研究。
一、隱私計算與AI能力互為補充
我們認為,AI和隱私計算是息息相關(guān)的。
首先,隱私計算是AI能力的重要補充。從技術(shù)角度看,足夠規(guī)模且多樣化的數(shù)據(jù),才能訓練出比較好的模型,隱私計算能夠解決數(shù)據(jù)的“鏈接”問題,為算法的持續(xù)進化提供數(shù)據(jù)補充;
第二,AI是隱私計算的核心需求。從場景角度來看,隱私計算通常和AI緊密相關(guān),AI可以看成隱私計算的上層應用與核心技術(shù)?;诿艽a學原理的MPC/聯(lián)邦學習,需要針對特定應用進行程序改寫,而且多數(shù)是屬于AI應用,比如DNN、邏輯回歸或樹模型。從這一點來看,AI和隱私計算有一定的相通之處,他們都沒有一個通用技術(shù)方案解決所有問題。
第三,隱私計算是AI平臺的2.0版本。從產(chǎn)品角度來看,用戶需要的是帶有隱私計算功能的機器學習平臺。市場上主流的隱私計算平臺,其實提供的大多是AI建模能力,不過底層通過密碼學、MPC技術(shù)進行了隱私保護的功能。
總體來看,我們認為人工智能和隱私計算互為補充,且互為核心需求。
二、隱私計算的困境在哪里?
但目前我們也了解到,隱私計算面臨很多問題。
第一,生態(tài)壁壘。隱私計算解決數(shù)據(jù)孤島的問題,但解決了之后,反而會誕生技術(shù)孤島的問題,各家隱私計算的技術(shù)互不相通,也無法互相連接,基本意味著上層的代碼需要重構(gòu)。
第二,計算性能。速度慢,因為引入了很多密碼學操作,要么是MPC帶來的通信問題,要么是同態(tài)加密帶來的計算性能問題,很難支撐大規(guī)模數(shù)據(jù)訓練,如果是億級或十億級的訓練,單純用聯(lián)邦學習或者MPC很難實現(xiàn)。
第三,安全性。各家從知識產(chǎn)權(quán)的角度不太會公開自己的底層協(xié)議(除了一些開源項目),這就帶來協(xié)議不透明的問題,難以審計。安全性如果沒辦法審計,將會蘊含巨大漏洞。
第四,可用性。我們?yōu)榱俗鰯?shù)據(jù)生態(tài)、解決方案生態(tài),不可能要求客戶自己連接數(shù)據(jù),所以作為一家隱私計算技術(shù)的服務(wù)商,我們需要提供開箱即用的數(shù)據(jù),甚至需要提供開箱即用的解決方案,讓用戶能夠在不改變原來中心化非隱私計算操作體驗的情況下來使用隱私計算平臺。
三、AI發(fā)展趨勢為隱私計算的未來發(fā)展提供借鑒
剛剛聊到AI和隱私計算之間的關(guān)系,其實我們可以用AI的發(fā)展趨勢預測隱私計算將來的發(fā)展趨勢。
第一,AI為隱私計算解決兼容互通問題提供了借鑒。AI也有很多框架,比如Tensorflow、PyTorch,各個框架之間也很難互通,但后來出現(xiàn)了ONNX,在數(shù)據(jù)流圖層把各家的協(xié)議集中匯聚起來,再轉(zhuǎn)移成另一個框架可以執(zhí)行的東西。數(shù)據(jù)流圖層面的兼容,是AI發(fā)展為解決框架之間互聯(lián)互通問題提出的方案,對隱私計算的互聯(lián)互通具有借鑒意義。
第二,AI為隱私計算性能優(yōu)化提供了方向。我們知道AI也是吃算力的,AI的性能優(yōu)化基本沿著兩條路線,一是硬件升級,最早是CPU,后來又有GPU,再到現(xiàn)在專用的AI芯片;二是算法升級,包括模型的壓縮、蒸餾、剪枝,把大模型變成小模型,這些對于隱私計算的發(fā)展也是適用的。
第三,AI為隱私計算解決安全性問題提供了路徑。我們做了一個技術(shù)實驗,一張雪山的圖片,經(jīng)過添加對抗噪聲,可以讓AI識別錯誤,讓其識別成一張狗的圖片,這是AI的安全性問題。隱私計算也面臨類似的問題,比如通過橫向聯(lián)邦中的數(shù)據(jù)投毒、模型污染化,所以AI和隱私計算在安全性提升方面面臨的問題也是相通的。
第四,AI為隱私計算場景落地問題提供了借鑒。前幾年一直說AI賦能萬物,AI賦能所有產(chǎn)業(yè),現(xiàn)在大家發(fā)現(xiàn)是產(chǎn)業(yè)結(jié)合AI、場景結(jié)合AI。隱私計算目前也處在這兩種思想的匯聚期,到底是隱私計算作為底座賦能所有產(chǎn)業(yè),還是結(jié)合具體場景來選擇相應的隱私計算技術(shù)?這是兩種路線之爭。當然,我們相信結(jié)合場景的AI更有價值,結(jié)合場景的隱私計算也更實際、更可落地、更有價值。
從AI的發(fā)展經(jīng)驗來推演隱私計算的發(fā)展,在技術(shù)路徑方面,概括來說有以下幾個思路:
第一,編譯器路線。兼容互通應該在底層算子層完成,不應該只停留在軟件層或集成層,底層數(shù)據(jù)流圖也是安全、可追溯、可驗證的工具,可表達計算邏輯。第二,性能優(yōu)化。短期可以通過優(yōu)化底層的密碼庫來實現(xiàn),未來還需要新硬件的介入,更好地提升速度。第三,隱私計算的安全性,包含抵御密碼協(xié)議層和應用層的惡意攻擊,隨著AI的發(fā)展,一些對抗樣本攻擊的問題開始出現(xiàn),隱私計算的發(fā)展將來也將面臨一些新安全問題,我們應該在當前發(fā)展的時候就考慮到,而不是先發(fā)展后治理。
四、隱私計算的產(chǎn)業(yè)路徑需要逐場景落地
同樣參考AI發(fā)展模式,我們認為隱私計算的產(chǎn)業(yè)路徑需要逐場景落地,并根據(jù)不同的場景選擇不同的技術(shù)路線。借用信通院講的三大技術(shù)路線來闡述多方安全計算、聯(lián)邦學習和可信執(zhí)行環(huán)境各個路線之間的優(yōu)劣勢。
(1)從應用場景來說,MPC更適合數(shù)值類簡單計算和查詢求交類特定計算;聯(lián)邦學習主要是針對機器學習的場景,計算邏輯比較復雜,不是簡單計算;TEE更適合通用計算場景,比如有時候想跑一個完整的Tensorflow或數(shù)據(jù)庫應用,用前兩個比較難,用這個比較合適。
(2)從技術(shù)優(yōu)勢的角度來說,簡單的分布式統(tǒng)計/查詢求交場景下,MPC比較成熟,但復雜計算情況下受限于通信情況,還是不太成熟;聯(lián)邦學習,保證數(shù)據(jù)不出庫的情況下進行復雜的機器學習、建模,大部分情況下的計算性能還是尚可的,但是在一些特別大量的數(shù)據(jù)下,密碼學計算還是主要的限制;TEE是集中式的數(shù)據(jù)處理,易開發(fā),它的算法/框架生態(tài)是最好的。
(3)從技術(shù)劣勢的角度來說,MPC的通信量大,支持簡單的計算邏輯可行,但計算邏輯一旦復雜,就耗費一定時間,比如一個Resnet,2-party,一張圖片的inference可能需要10分鐘以上,在實際落地中是完全不可接受的;聯(lián)邦學習主要是面向AI建模場景,但有的場景就是想簡單的求和、求最大值,這時候聯(lián)邦學習就不是理想方案;TEE主要劣勢是依賴于硬件廠商的硬件可信性,和用戶是否接受數(shù)據(jù)集中式處理。
目前隱私計算這一賽道比較火熱,但是還有很多問題沒有解決。比如隱私計算解決的是數(shù)據(jù)流通安全性的問題,分離了數(shù)據(jù)所有權(quán)和使用權(quán),避免流通過程中的資產(chǎn)損失,但它沒辦法解決端到端的安全問題。很多企業(yè)更希望獲得的是端到端安全保障,比如數(shù)據(jù)存儲、數(shù)據(jù)采集怎么做,以及數(shù)據(jù)流通前后的權(quán)屬該怎么定,隱私計算在解決這樣的全鏈路安全問題上,還面臨著一系列挑戰(zhàn)。所以,隱私計算僅僅是企業(yè)合規(guī)建設(shè)中的一個技術(shù)環(huán)節(jié),整體上還是需要在法律法規(guī)的指導下進行。
還有數(shù)據(jù)流通的意愿問題,如果企業(yè)只是把隱私計算當成企業(yè)合規(guī)建設(shè)的成本項,那數(shù)據(jù)交易也很難推行下去。徐世真認為,只有深度結(jié)合AI,使業(yè)務(wù)方從隱私計算中獲益,才能把隱私計算從成本項變成營收項,保證企業(yè)有可持續(xù)的意愿度,保證數(shù)據(jù)價值閉環(huán)操作。
五、編譯級隱私計算平臺RealSecure,打通落地“最短鏈路”
據(jù)了解,瑞萊智慧推出的隱私計算平臺RealSecure是業(yè)內(nèi)首個編譯級隱私計算平臺,自主研發(fā)聯(lián)邦AI編譯器,實現(xiàn)以數(shù)據(jù)流圖變換的形式實現(xiàn)機器學習算法到聯(lián)邦機器學習算法的自動轉(zhuǎn)換,無需針對每個參與方編寫特定的計算邏輯,適配多種機器學習算法。數(shù)據(jù)流圖的形式可直觀展示加密過程,底層執(zhí)行的計算公開可審計,深度結(jié)合密碼學證明,支持完整證明聯(lián)邦算法協(xié)議的安全性。
同時,該平臺創(chuàng)新性的引入了全同態(tài)加密技術(shù),將密碼設(shè)計中的批次處理和機器學習中以Tensor為最小數(shù)據(jù)單元的場景相結(jié)合,在部分機器學習算法中,該平臺相對于主流開源框架有40倍以上端到端的速度提升。
基于RealSecure平臺,瑞萊智慧推出了“平臺+數(shù)據(jù)+服務(wù)+場景”的一體化解決方案,基于這套方案實現(xiàn)多個場景案例。
比如某家頭部銀行的資產(chǎn)躍遷分析案例。該銀行希望統(tǒng)計集團子公司中交集客戶總資產(chǎn),定位發(fā)生資產(chǎn)躍遷客戶,獲取高凈值客戶名單,并分析資產(chǎn)躍遷潛在原因及差異化潛在高凈值客戶的營銷策略。但是各個子公司不愿意透漏各自的數(shù)據(jù)詳情、全過程各個參與方不能獲取或者泄露各自數(shù)據(jù)詳情。通過與瑞萊智慧合作,銀行、保險子公司、證券子公司分別部署隱私保護計算平臺(RealSecure)節(jié)點,基于RSC的PSI(隱私求交)及MPC(多方安全計算加法)技術(shù),在保護各方數(shù)據(jù)隱私的前提下,統(tǒng)計集團子公司的交集客戶總資產(chǎn),并定位交集客戶中的資產(chǎn)躍遷,獲取高凈值客戶名單,根據(jù)統(tǒng)計結(jié)果制定差異化高凈值客戶營銷策略。
最后,瑞萊智慧也與中倫律師事務(wù)所合作開展企業(yè)合規(guī)體系建設(shè)。雙方基于優(yōu)勢互補,充分發(fā)揮資源優(yōu)勢,在數(shù)字經(jīng)濟時代針對人工智能、數(shù)據(jù)交換等新場景下監(jiān)管機構(gòu)的合規(guī)要求,對內(nèi)健全技術(shù)合規(guī)體系建設(shè),對外面向企業(yè)輸出應用合規(guī)咨詢服務(wù)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章