0
本文作者: 周蕾 | 2020-04-30 10:36 | 專(zhuān)題:雷鋒網(wǎng)公開(kāi)課 | 金融 AI 云課堂 |
近期,平安科技副總工程師、聯(lián)邦學(xué)習(xí)技術(shù)部總經(jīng)理、資深人工智能總監(jiān)王健宗博士做客雷鋒網(wǎng)AI金融評(píng)論公開(kāi)課,以“聯(lián)邦智能加速AI落地”為題,全面詳盡地講解了聯(lián)邦智能如何直面數(shù)據(jù)困境,解決AI落地難題。
關(guān)注微信公眾號(hào) AI金融評(píng)論 ,在公眾號(hào)聊天框回復(fù)“聽(tīng)課”,進(jìn)群可收看本節(jié)課程視頻回放。
以下是王健宗博士演講全文與精選問(wèn)答內(nèi)容:
我今天的演講主要分為四個(gè)部分。
首先我會(huì)解釋一下,過(guò)去這些年我在人工智能行業(yè)中遇到的一些數(shù)據(jù)困境,也是實(shí)際上人工智能普遍會(huì)遇到的一些問(wèn)題。
第二,我將自己這些年的思考提煉成聯(lián)邦智能這樣一個(gè)理念,希望借由這個(gè)理念來(lái)重塑數(shù)據(jù)生態(tài)。
第三,將給大家匯報(bào)一下,我們這些年在聯(lián)邦智能方面的一些應(yīng)用和實(shí)踐工作。
最后,我會(huì)簡(jiǎn)短地展望一下未來(lái)聯(lián)邦智能的未來(lái)發(fā)展。
距離我第一次聽(tīng)到大數(shù)據(jù)已經(jīng)將近10年時(shí)間。大數(shù)據(jù)發(fā)展到今天,實(shí)際上是因?yàn)橛幸苿?dòng)互聯(lián)網(wǎng),包括云計(jì)算的驅(qū)動(dòng),助力數(shù)據(jù)海量發(fā)展,也推動(dòng)了我們目前以深度學(xué)習(xí)技術(shù)為核心的這一波人工智能的浪潮。
從2019年開(kāi)始,我們常常會(huì)遇到一些人工智能難以落地的難題,或者在應(yīng)用模式上沒(méi)有普適性,或者AI產(chǎn)品在通用性不夠等問(wèn)題,這些問(wèn)題是伴隨著這一波AI技術(shù)的革命、革新逐步暴露出來(lái)的。
數(shù)據(jù)作為核心的資產(chǎn),無(wú)法共享時(shí),會(huì)形成一個(gè)個(gè)數(shù)據(jù)孤島,阻礙AI落地。各行各業(yè)實(shí)際上都存在數(shù)據(jù)壁壘,如何來(lái)突破這一塊,讓AI生態(tài)能夠更好地發(fā)展,是現(xiàn)在所有的AI人想解決的問(wèn)題。
對(duì)于數(shù)據(jù)來(lái)說(shuō),第一個(gè)問(wèn)題是數(shù)據(jù)孤島,第二個(gè)問(wèn)題是對(duì)于數(shù)據(jù)的隱私保護(hù)。全球都在對(duì)數(shù)據(jù)使用做出各種各樣的限制,對(duì)于一些隱私數(shù)據(jù)的使用規(guī)范,已經(jīng)有了很明確的法律層面的界定。實(shí)際上這也是數(shù)據(jù)資產(chǎn)化的一種趨勢(shì)。
我們國(guó)家一直以來(lái)都非常重視數(shù)據(jù)安全、網(wǎng)絡(luò)安全。近年來(lái)相繼出臺(tái)了《網(wǎng)絡(luò)安全法》等各種各樣的信息保護(hù)法,我所從事的金融行業(yè),像金融標(biāo)準(zhǔn)委員會(huì)等,也對(duì)數(shù)據(jù)有相關(guān)規(guī)定。
未來(lái)的趨勢(shì)是,法律會(huì)越來(lái)越嚴(yán)。趨嚴(yán)之后,大家對(duì)數(shù)據(jù)的使用也會(huì)越來(lái)越規(guī)范。
我從事的金融行業(yè)金融在做AI建模的過(guò)程中,有很多數(shù)據(jù)合作的需求。因?yàn)?,模型本身從冷啟?dòng)開(kāi)始的時(shí)候就需要一些數(shù)據(jù),對(duì)于這些數(shù)據(jù)需要關(guān)心它的來(lái)源是什么?它的安全性是什么?它是否能夠讓我能夠合法合規(guī)地使用?
如果數(shù)據(jù)不安全、不合規(guī),我相信沒(méi)有公司愿意在這樣的大環(huán)境下鋌而走險(xiǎn)去使用。
在目前法律趨嚴(yán)的情況下,大家對(duì)數(shù)據(jù)使用方面也是需要特別地小心。去年,國(guó)家層面對(duì)爬蟲(chóng)進(jìn)行過(guò)一波整治。實(shí)際上,爬蟲(chóng)存在很明顯地在沒(méi)有經(jīng)過(guò)用戶允許的情況下濫用數(shù)據(jù)的行為,這是國(guó)家嚴(yán)令禁止的。
2020年4月9日,國(guó)務(wù)院在構(gòu)建要素市場(chǎng)化配置機(jī)制的意見(jiàn)當(dāng)中,首次把數(shù)據(jù)和土地、勞動(dòng)力、資本、技術(shù)等作為要素,明確提出來(lái),就加強(qiáng)數(shù)據(jù)整合、安全保護(hù),制定出這樣一個(gè)數(shù)據(jù)隱私的制度。
我覺(jué)得培養(yǎng)對(duì)數(shù)據(jù)隱私保護(hù),及合法合規(guī)使用數(shù)據(jù)的意識(shí),是非常重要的,希望大家能夠重視起來(lái)。
接下來(lái),我會(huì)從傳統(tǒng)AI技術(shù)模式出發(fā)分析一些瓶頸或者限制出現(xiàn)的原因。實(shí)際上,傳統(tǒng)的AI技術(shù)必須從海量的數(shù)據(jù)中學(xué)習(xí)或者挖掘一些相關(guān)的特征,利用數(shù)學(xué)理論,去擬合一個(gè)數(shù)學(xué)模型,找到輸入和輸出的對(duì)應(yīng)關(guān)系,比如深度學(xué)習(xí)中訓(xùn)練網(wǎng)絡(luò)的權(quán)重和偏置,模型效果與數(shù)據(jù)量級(jí)、質(zhì)量、以及數(shù)據(jù)的真實(shí)性等有著密切的關(guān)系。
科技頭部公司有著成熟的技術(shù)和產(chǎn)品,數(shù)據(jù)渠道和來(lái)源較為廣泛。
而對(duì)小型或初創(chuàng)公司來(lái)說(shuō),與數(shù)據(jù)信息具有強(qiáng)依賴(lài)關(guān)系的技術(shù)模式,使其不能突破數(shù)據(jù)瓶頸,無(wú)法實(shí)現(xiàn)商業(yè)化落地。另外,傳統(tǒng)的數(shù)據(jù)合作方式,仍存在周期冗長(zhǎng)、流程繁瑣等問(wèn)題。
這一技術(shù)模式使個(gè)人幾乎無(wú)法參與到AI產(chǎn)品的迭代中,用戶不能從他們的設(shè)備、位置等方面收集個(gè)人數(shù)據(jù)來(lái)完成功能優(yōu)化。
怎樣打破數(shù)據(jù)的困境?如何在保護(hù)隱私的情況下,讓個(gè)人端和商業(yè)端共贏,實(shí)現(xiàn)全行業(yè)共同的增益?
我嘗試給出一個(gè)答案——聯(lián)邦智能,這是我經(jīng)過(guò)長(zhǎng)時(shí)間思考和多次改版提出來(lái)的理論體系。
聯(lián)邦智能以聯(lián)邦學(xué)習(xí)為龍頭、為核心,依托聯(lián)邦數(shù)據(jù)部落,實(shí)現(xiàn)具備隱私保護(hù)的聯(lián)邦推理,以聯(lián)邦激勵(lì)機(jī)制為紐帶所形成的一整個(gè)AI新生態(tài)或者新常態(tài)。
解決之道:聯(lián)邦智能重塑數(shù)據(jù)生態(tài)
這里展示的是聯(lián)邦智能的架構(gòu)關(guān)系圖,其構(gòu)成部分包括:聯(lián)邦學(xué)習(xí)、聯(lián)邦推理、聯(lián)邦數(shù)據(jù)部落,以及貫穿于整個(gè)框架體系中的聯(lián)邦激勵(lì)機(jī)制。
首先,我將對(duì)聯(lián)邦數(shù)據(jù)部落做下簡(jiǎn)要介紹。在大數(shù)據(jù)時(shí)代,業(yè)界存在諸多與數(shù)據(jù)存儲(chǔ)相關(guān)的表現(xiàn)形式,如:數(shù)據(jù)庫(kù)、云存儲(chǔ)等等。
那么我們?cè)谶@里為什么會(huì)提出數(shù)據(jù)部落?實(shí)際上,每個(gè)數(shù)據(jù)可以定義為單位個(gè)體,它們之間相互獨(dú)立,但又信息相通,具有合作的關(guān)聯(lián)屬性,因此我們將這些數(shù)據(jù)單元的集合,稱(chēng)之為數(shù)據(jù)部落。
在部落中,既有來(lái)自各行各業(yè)的數(shù)據(jù),又有來(lái)自各種端和設(shè)備的數(shù)據(jù)。
我們的初衷,是希望部落之間能夠達(dá)成數(shù)據(jù)不出本地的一種合作機(jī)制。大家能夠把自己的數(shù)據(jù)貢獻(xiàn)出來(lái),共同去完成建模過(guò)程。
在這一過(guò)程中,大致會(huì)包含數(shù)據(jù)過(guò)濾、數(shù)據(jù)對(duì)齊,以及一些特征信息的聚合等內(nèi)容。在聯(lián)邦學(xué)習(xí)這一聯(lián)合建模的過(guò)程中,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)均有參與,不過(guò)就目前來(lái)講,還仍未出現(xiàn)一個(gè)“All in One”的通用解決方案。
我們聯(lián)邦數(shù)據(jù)部落中的數(shù)據(jù)信息,通過(guò)聯(lián)邦學(xué)習(xí),最終會(huì)形成聯(lián)邦模型,而這一模型會(huì)反哺各行各業(yè),包括:智慧金融、智慧城市、智慧醫(yī)療等各種場(chǎng)景。
實(shí)際上,我們的聯(lián)邦模型還能提供聯(lián)邦推理這一服務(wù)應(yīng)用。其中,聯(lián)邦推理是基于加密方式完成推理計(jì)算的,這一過(guò)程無(wú)需上傳任何相關(guān)設(shè)備存儲(chǔ)的明文數(shù)據(jù),或者是個(gè)人隱私數(shù)據(jù),從而保證了數(shù)據(jù)的安全和隱私性。
整個(gè)系統(tǒng)會(huì)融入有聯(lián)邦激勵(lì)機(jī)制。我們?cè)O(shè)計(jì)激勵(lì)機(jī)制的初衷,是希望這一機(jī)制能夠保證各聯(lián)合方既能作為貢獻(xiàn)者,又能成為受益人,以此激勵(lì)在這一生態(tài)中的合伙人可以做好促進(jìn)聯(lián)邦智能生態(tài)往繁榮方向發(fā)展。關(guān)于聯(lián)邦激勵(lì)機(jī)制的相關(guān)工作,我們將在后面展開(kāi)介紹。
實(shí)際上,聯(lián)邦學(xué)習(xí)是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù)。傳統(tǒng)的分布式機(jī)器學(xué)習(xí)技術(shù)在數(shù)據(jù)分布上是一致的,但在聯(lián)邦學(xué)習(xí)中所表現(xiàn)的是數(shù)據(jù)獨(dú)立且分布不同。
在聯(lián)邦學(xué)習(xí)過(guò)程中,會(huì)考慮很多的底層技術(shù),如多顯卡加速計(jì)算的線程分配、參數(shù)交換機(jī)制等,這里面我們就需要著重考慮基于加密方式的隱私保護(hù)問(wèn)題。
如上圖“聯(lián)邦學(xué)習(xí)系統(tǒng)”所示,它本質(zhì)上是基于本地?cái)?shù)據(jù)的本地訓(xùn)練,云端會(huì)發(fā)布相應(yīng)的初始模型,并聯(lián)合各方由本地發(fā)起訓(xùn)練,共同完成模型構(gòu)建過(guò)程。
聯(lián)邦學(xué)習(xí)機(jī)制是允許跨行業(yè)的,同時(shí)可以跨B端和C端。目前來(lái)看,國(guó)內(nèi)B端市場(chǎng)對(duì)聯(lián)邦學(xué)習(xí)表現(xiàn)有非常強(qiáng)烈的需求意向,特別像金融行業(yè),由于國(guó)家對(duì)金融數(shù)據(jù)有著嚴(yán)格管控,使得聯(lián)邦學(xué)習(xí)在智能金融場(chǎng)景的應(yīng)用會(huì)比其他行業(yè)更為前沿。
聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì)主要包括以下四點(diǎn):
1、數(shù)據(jù)本地化使得數(shù)據(jù)本身不會(huì)泄露到外部,能夠完全滿足用戶隱私保護(hù)的需求。
2、從算力上我們可以做好邊端的計(jì)算下沉。特別在5G時(shí)代來(lái)臨后,限制參數(shù)交換速度的網(wǎng)絡(luò)瓶頸會(huì)被逐步打破,從而更好地加速聯(lián)合訓(xùn)練。
3、在聯(lián)邦建模過(guò)程當(dāng)中,可以實(shí)時(shí)進(jìn)行基于加密機(jī)制下的參數(shù)交換,實(shí)現(xiàn)原始數(shù)據(jù)不泄露,這種無(wú)數(shù)據(jù)直接交互和傳輸方式也符合政策與法律法規(guī)要求。
4、我們可以確保參與各方的身份和地位是相同的。通過(guò)設(shè)計(jì)的激勵(lì)機(jī)制,使得大家有益于參與聯(lián)合訓(xùn)練過(guò)程,從而更好地維護(hù)聯(lián)邦智能生態(tài)。另外,聯(lián)邦學(xué)習(xí)將更有利于數(shù)據(jù)相對(duì)弱勢(shì)的一方,并最終實(shí)現(xiàn)共同增益。
我們提到的聯(lián)邦數(shù)據(jù)部落,是要把每一個(gè)數(shù)據(jù)孤島部落化,以此納入聯(lián)邦合作的體系中來(lái)。
對(duì)于整個(gè)數(shù)據(jù)部落來(lái)說(shuō),例如IOT數(shù)據(jù)、醫(yī)療數(shù)據(jù)、個(gè)人手機(jī)數(shù)據(jù)以及各個(gè)行業(yè)數(shù)據(jù),這些原始數(shù)據(jù)實(shí)際上是互不相通的,沒(méi)有任何數(shù)據(jù)流轉(zhuǎn)通道。
其中,我們會(huì)對(duì)各方間的數(shù)據(jù)獲取渠道進(jìn)行加鎖設(shè)置。當(dāng)數(shù)據(jù)合作方加入到部落中后,實(shí)際上存在一些工作,具體表現(xiàn)為如下三點(diǎn):
1、首先我會(huì)提供一些相關(guān)的標(biāo)準(zhǔn)化工具,在原始不交換的基礎(chǔ)上,對(duì)來(lái)自個(gè)人或企業(yè)終端的本地?cái)?shù)據(jù)進(jìn)行預(yù)處理,比如針對(duì)缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、偏離數(shù)據(jù)的數(shù)據(jù)清洗、數(shù)據(jù)降噪、數(shù)據(jù)降噪等工作。
實(shí)際上,我們的目標(biāo)是在大家達(dá)成協(xié)議的基礎(chǔ)上,能夠選擇聯(lián)合終端中高質(zhì)量的數(shù)據(jù)進(jìn)行去中心化的本地訓(xùn)練。
2、為了使用與某項(xiàng)業(yè)務(wù)場(chǎng)景相關(guān)的數(shù)據(jù),我們需要做出特征標(biāo)記與篩選。
因此,“聯(lián)邦數(shù)據(jù)部落”會(huì)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征化處理,包括:數(shù)據(jù)分類(lèi)、特征標(biāo)記、數(shù)據(jù)聚合等方式,使其有針對(duì)性的發(fā)起訓(xùn)練。
3、我們會(huì)對(duì)聯(lián)邦數(shù)據(jù)部落中的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,這也是形成聯(lián)邦激勵(lì)機(jī)制評(píng)價(jià)指標(biāo)的重要步驟。
聯(lián)邦數(shù)據(jù)部落依據(jù)數(shù)據(jù)量級(jí)、數(shù)據(jù)有效性、數(shù)據(jù)信息密度、數(shù)據(jù)真實(shí)性等評(píng)價(jià)指標(biāo),對(duì)參與聯(lián)邦學(xué)習(xí)訓(xùn)練的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。同時(shí)也起到了數(shù)據(jù)監(jiān)測(cè)與評(píng)估量化的作用。
在聯(lián)邦推理中,我們希望模型在應(yīng)用環(huán)節(jié)也能起到保護(hù)數(shù)據(jù)隱私的作用。
以聲紋識(shí)別為例,它屬于生物特征的一種,并在一定程度上是極其重要的隱私信息。在我從事多年的聲紋項(xiàng)目中發(fā)現(xiàn),聲紋特征是具有抗時(shí)變性的,短期內(nèi)它不會(huì)隨著年齡的增長(zhǎng)而發(fā)改變。
在傳統(tǒng)的聲紋推理模式中,服務(wù)會(huì)將用戶端輸入的語(yǔ)音直接傳送至云端的聲紋平臺(tái)與引擎中,經(jīng)過(guò)前置的語(yǔ)音預(yù)處理,如靜音消除、截幅檢測(cè)等。
由i-Vector/d-Vector/x-Vector聲紋模型提取出高維的特征向量,再根據(jù)PLDA打分與兩兩比對(duì),最終完成說(shuō)話人身份確認(rèn)。
比較典型的應(yīng)用包括:聲紋門(mén)禁、聲紋鎖、電話平臺(tái)聲紋核身。另外,還包括1:N情況下的聲紋識(shí)別,即說(shuō)話人辨別,以上是以聲紋為例的傳統(tǒng)推理過(guò)程。
如果我們不上傳本地語(yǔ)音數(shù)據(jù)將如何實(shí)現(xiàn)這一推理過(guò)程?
實(shí)際上,我們會(huì)在本地用戶端內(nèi)置一個(gè)自主開(kāi)發(fā)的蜂巢系統(tǒng)中的插件,它會(huì)在保留原始聲紋信息的基礎(chǔ)上,利用混沌算法對(duì)語(yǔ)音信號(hào)進(jìn)行加密,并形成如白噪聲類(lèi)似的密文流信號(hào)。在經(jīng)過(guò)一系列處理后,插件會(huì)生成公鑰,并連同處理語(yǔ)音一同傳送至云端。
這個(gè)公鑰的作用是什么?是為了確保在云端推理過(guò)程中數(shù)據(jù)始終保持隱私性。最后,我們會(huì)將推理加密結(jié)果返回至邊端后,由邊端解密后直接獲取到真實(shí)結(jié)果。
整個(gè)推理過(guò)程,是一個(gè)隱私與安全的鏈路過(guò)程,我們的原始語(yǔ)音與信息始終沒(méi)有泄露。
聯(lián)邦激勵(lì)機(jī)制是一個(gè)綜合性的閉環(huán)學(xué)習(xí)機(jī)制,實(shí)際上我們也融入宏觀經(jīng)濟(jì)、管理范疇的一些概念。在我們的聯(lián)邦智能生態(tài)中,它所表征的是對(duì)貢獻(xiàn)度與收益的評(píng)估機(jī)制。
在數(shù)據(jù)資產(chǎn)化的背景下,聯(lián)邦企業(yè)所貢獻(xiàn)的數(shù)據(jù)量級(jí)如果足夠大,且質(zhì)量好,會(huì)直接為聯(lián)合模型帶來(lái)效果增益,而這一效果提升也會(huì)映射到參與聯(lián)邦的本地模型上,并為企業(yè)帶來(lái)實(shí)際的價(jià)值與收益。我們會(huì)以此量化這一過(guò)程中涉及的貢獻(xiàn)度。
同時(shí)我們發(fā)現(xiàn),在這一良性激勵(lì)的帶動(dòng)下會(huì)吸引更多的人來(lái)更新生態(tài),最終形成貢獻(xiàn)與收益的動(dòng)態(tài)平衡,這也是聯(lián)邦激勵(lì)機(jī)制的整個(gè)閉環(huán)過(guò)程。
在聯(lián)邦激勵(lì)機(jī)制下,支付對(duì)象包括聯(lián)邦數(shù)據(jù)部落與聯(lián)邦結(jié)算中心。在聯(lián)邦數(shù)據(jù)部落中,一部分成員即是數(shù)據(jù)貢獻(xiàn)者,也有應(yīng)用需求,可以說(shuō)既是生產(chǎn)者,也是消費(fèi)者。
而另一部分成員,只會(huì)提供數(shù)據(jù)支持,如大數(shù)據(jù)公司。在聯(lián)邦結(jié)算中心中,流向它的我們稱(chēng)為用戶支付。
這一支付評(píng)估額維度是依據(jù)聯(lián)邦部落數(shù)據(jù)的本身價(jià)值,包括現(xiàn)有貢獻(xiàn)價(jià)值和未來(lái)價(jià)值,以及聯(lián)邦啟動(dòng)的初始資金和聯(lián)邦后的實(shí)際效益,同時(shí)其中也會(huì)包含一些梯度定價(jià)策略。
另一方面,從聯(lián)邦結(jié)算中心流出的是激勵(lì)支付,它會(huì)依據(jù)各聯(lián)邦成員的數(shù)據(jù)量級(jí)、數(shù)據(jù)質(zhì)量以及數(shù)據(jù)成本進(jìn)行激勵(lì)性結(jié)算支付。
在這一閉環(huán)的流轉(zhuǎn)下,我們將希望吸引更多的人參與到聯(lián)邦激勵(lì)中,同時(shí)大家也可以從中獲得收益。
聯(lián)邦智能的應(yīng)用實(shí)踐
我在平安打造了一個(gè)蜂巢平臺(tái),顧名思義,很多蜜蜂通過(guò)外出采蜜,在蜂巢形成蜜的共享。打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)價(jià)值,這個(gè)在金融行業(yè)是非常重要的。
我2015年回國(guó)加入平安之后,就做大數(shù)據(jù)和AI的工作,從開(kāi)始就深刻感受到金融的行業(yè)對(duì)于數(shù)據(jù)的使用合規(guī)的一些監(jiān)管方面的高壓。
因?yàn)楸旧斫鹑跀?shù)據(jù)很純凈,在座任何人都會(huì)有一些收入數(shù)據(jù)、股票交易數(shù)據(jù)等,對(duì)于任何人來(lái)說(shuō),這些數(shù)據(jù)都是絕密的,非常重要的。
國(guó)家以前是一行三會(huì),現(xiàn)在是一行兩會(huì),因?yàn)殂y保監(jiān)會(huì)合并了。銀保集團(tuán)合并之后,數(shù)據(jù)的管理實(shí)際上是更加的嚴(yán)格。
在企業(yè)里面,不管是什么企業(yè),只要數(shù)據(jù)沒(méi)辦法集中,工作就很難開(kāi)展。
我們?cè)谄脚_(tái)的設(shè)計(jì)上是遵循金融的標(biāo)準(zhǔn),同時(shí)也支持國(guó)密。
如圖所示,整個(gè)過(guò)程里面實(shí)現(xiàn)智能的聯(lián)邦的協(xié)作,實(shí)現(xiàn)數(shù)據(jù)的安全得理,實(shí)現(xiàn)多方的隱私訓(xùn)練,能夠?qū)崿F(xiàn)可信的機(jī)器學(xué)習(xí),并且也有可視化一些服務(wù)。整個(gè)過(guò)程中,數(shù)據(jù)不會(huì)上傳到服務(wù)器,保證數(shù)據(jù)的安全性。
整個(gè)平臺(tái)里面,因?yàn)楸旧砥桨布瘓F(tuán)現(xiàn)在也是一個(gè)綜合性的集團(tuán),蜂巢能夠提供智慧金融、智慧城市、智慧醫(yī)療商用級(jí)的一站式解決方案,希望能夠激活數(shù)據(jù)價(jià)值。這是我們整個(gè)平臺(tái)的使命。
我們的目標(biāo)是跨企業(yè)、跨數(shù)據(jù)、跨境領(lǐng)域,實(shí)現(xiàn)整個(gè)大數(shù)據(jù)AI生態(tài)。平臺(tái)的核心就是構(gòu)建圍繞聯(lián)邦學(xué)習(xí)、聯(lián)邦數(shù)據(jù)部落、聯(lián)邦推理、聯(lián)邦激勵(lì)機(jī)制為核心的聯(lián)邦智能生態(tài)。
產(chǎn)品適用范圍包括像訓(xùn)練隱私、敏感數(shù)據(jù),同時(shí)借鑒了我們之前在自動(dòng)化機(jī)器學(xué)習(xí)上的一些經(jīng)驗(yàn),在底層進(jìn)行加速,包括在底層通訊層的優(yōu)化等等,也包括現(xiàn)在我們?cè)诩咏饷苓@一塊的嘗試,希望這個(gè)平臺(tái)能同時(shí)滿足B端和C端的需求。
蜂巢平臺(tái)的技術(shù)框架,是支持聯(lián)邦智能原生的。如圖所示,底層的數(shù)據(jù)部分我不再贅述了,在整個(gè)系統(tǒng)里面我們都把它看成數(shù)據(jù)部落。
在數(shù)據(jù)部落里面,有幾個(gè)功能模塊,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征化、數(shù)據(jù)質(zhì)量的評(píng)估、這些我們?cè)诩夹g(shù)上都會(huì)做一些實(shí)現(xiàn)。
平臺(tái)支持傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)以及深度學(xué)習(xí)的模型,比如邏輯回歸、線性回歸、樹(shù)模型等。在整個(gè)模型訓(xùn)練過(guò)程中,對(duì)梯度進(jìn)行非對(duì)稱(chēng)加密,整合梯度和參數(shù)優(yōu)化、更新模型。
在推理這一塊,我們會(huì)把原始的傳輸?shù)臄?shù)據(jù)進(jìn)行加密,最終實(shí)現(xiàn)推理結(jié)果。
我們的產(chǎn)品定位是服務(wù)于營(yíng)銷(xiāo)、獲客、定價(jià)、風(fēng)控、智慧城市和智慧醫(yī)療。同時(shí),整個(gè)團(tuán)隊(duì)在聯(lián)邦學(xué)習(xí)技術(shù)上也有一定的科研成果,包括專(zhuān)利和論文。
舉個(gè)例子,銀保監(jiān)會(huì)和證監(jiān)會(huì)數(shù)據(jù)是絕對(duì)不能打通的。所以說(shuō)對(duì)傳統(tǒng)的數(shù)據(jù),如圖左邊所示,比方說(shuō)出本地聯(lián)合建模,這種方式可以在實(shí)驗(yàn)環(huán)境做一做,但在真實(shí)數(shù)據(jù)上,這種方法行不通,因?yàn)檎叻ㄒ?guī)是不允許的。
我們用聯(lián)邦學(xué)習(xí)建模方式做了對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)聯(lián)邦學(xué)習(xí)可以提升模型效果。金融領(lǐng)域,大部分的場(chǎng)景是縱向聯(lián)邦學(xué)習(xí),橫向市場(chǎng)主要在移動(dòng)端。
我們還有包括醫(yī)療的影像數(shù)據(jù)這一塊的實(shí)踐經(jīng)驗(yàn)。
過(guò)去,我做醫(yī)療影像建模是非常困難的,我們訓(xùn)練好一個(gè)模型之后,要把模型布到物理機(jī)上,并搬到我們?cè)谫F州一個(gè)醫(yī)院去。
這個(gè)過(guò)程非常辛苦,并且這個(gè)模型還不能輕易更新,除非通過(guò)“人肉”的方式,拿著硬盤(pán)去更新。因?yàn)獒t(yī)療服務(wù)器不能聯(lián)網(wǎng),病人的片子是非常隱私的。
有了聯(lián)邦學(xué)習(xí)之后,通過(guò)聯(lián)邦學(xué)習(xí)的方式,比方說(shuō)像新冠肺炎這樣的一些讀片數(shù)據(jù),在不出本地的情況下,也能實(shí)現(xiàn)一整個(gè)的新冠肺炎檢測(cè)模型的優(yōu)化。
也可以把新冠肺炎的模型分享給別人,現(xiàn)在國(guó)際疫情形勢(shì)下,我們可以給到國(guó)外。這些都是可以用聯(lián)邦學(xué)習(xí)做的一些工作。
實(shí)際上我們?cè)诼?lián)邦推理和怎么樣保證大家實(shí)現(xiàn)一個(gè)安全或者可信的環(huán)境也可以做很多工作。我很高興地看到,現(xiàn)在聯(lián)邦學(xué)習(xí)每天都在推陳出新,相關(guān)的合作和應(yīng)用越來(lái)越多,這也是我們所有聯(lián)邦學(xué)習(xí)的從業(yè)者非常樂(lè)意看到的一個(gè)局面。
目前,聯(lián)邦智能的關(guān)注度很高,其內(nèi)部的需求是非常旺盛的。我們也希望大家無(wú)論是在訓(xùn)練、推理、還是數(shù)據(jù)部落的構(gòu)建、使用方面都能有聯(lián)邦智能的理念和意識(shí)。在金融領(lǐng)域、智能家居、車(chē)聯(lián)網(wǎng)等拓展領(lǐng)域上都能看到一些公司在布局聯(lián)邦智能。
同時(shí),聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)也在逐步落地。我們希望大家能夠共同打造聯(lián)邦學(xué)習(xí)的生態(tài),使各行各業(yè)能充分發(fā)揮其價(jià)值,使更多的垂直行業(yè)能夠落地。
Q1:聯(lián)邦數(shù)據(jù)部落和聯(lián)合建模有什么區(qū)別?
王健宗:它們屬于聯(lián)邦學(xué)習(xí)不同的層面。聯(lián)邦數(shù)據(jù)部落,實(shí)際上是聯(lián)合建模之前的數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)評(píng)估等工作。做好數(shù)據(jù)準(zhǔn)備后才會(huì)考慮聯(lián)合建模。聯(lián)合建模是聯(lián)邦學(xué)習(xí)中的重要部分。
這里我再補(bǔ)充講一下聯(lián)邦推理,它是在已有模型的基礎(chǔ)上實(shí)現(xiàn)的。在數(shù)據(jù)隱私安全的背景下,聯(lián)邦推理的趨勢(shì)是非常明顯的,聯(lián)邦推理的初衷是希望保證隱私數(shù)據(jù)不泄露。在未來(lái),將會(huì)有更多的AI模型引入聯(lián)邦學(xué)習(xí),使得模型更加可靠和安全。
Q2:聯(lián)邦推理和傳統(tǒng)推理只是有加、解密的區(qū)別嗎?
王健宗:我覺(jué)得不僅僅是加解密的區(qū)別。首先,如果對(duì)于推理結(jié)果只是加解密的話,不需要做任何信息片段的處理,只需要上傳推理結(jié)果和公鑰,最終返回私鑰。
但是聯(lián)邦推理不是這樣,比如在語(yǔ)音應(yīng)用的場(chǎng)景下,聯(lián)邦推理會(huì)對(duì)語(yǔ)音做一些處理工作,如截幅、降噪、加白噪音,甚至混淆等等。這些不僅是加解密,而是做到數(shù)據(jù)的混沌,把數(shù)據(jù)混沌化,以保證上傳的數(shù)據(jù)不被破解。這也是聯(lián)邦推理和傳統(tǒng)推理的本質(zhì)區(qū)別。
Q3:數(shù)據(jù)平臺(tái)很多,聯(lián)邦主要是聚焦在哪些方面?
王健宗:我們聯(lián)邦的整個(gè)平臺(tái),包括蜂巢平臺(tái)是兼容目前很多數(shù)據(jù)平臺(tái)的。我們現(xiàn)在是支持Spark和Hadoop的,并且也支持一些傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)。
實(shí)際上,大家可以將我們理解為數(shù)據(jù)平臺(tái)的增強(qiáng)版本,我們能夠兼容傳統(tǒng)的數(shù)據(jù)平臺(tái),并且通過(guò)一些構(gòu)建后,底層架構(gòu)能夠兼容各種結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)。為了做好聯(lián)邦學(xué)習(xí),我們已經(jīng)做了一些處理和改進(jìn)。
Q4:從論文到商業(yè)落地中間差了多長(zhǎng)時(shí)間?有哪些工程的事情要做?
王健宗:雖然好論文應(yīng)該是來(lái)自實(shí)際問(wèn)題,是對(duì)實(shí)際存在問(wèn)題的解答,但也會(huì)有很多好的論文涉及理論上的創(chuàng)新。從理論到商業(yè)落地的周期可能長(zhǎng)則數(shù)年,短則一到兩年。
在我現(xiàn)在做的蜂巢平臺(tái)里面,我發(fā)現(xiàn)一個(gè)很實(shí)際的問(wèn)題:傳輸過(guò)程非常慢,因?yàn)閭鬏斏婕暗郊用芙饷苓^(guò)程。這個(gè)時(shí)候我們就可以做一些實(shí)際工作。
比如:首先可以在通訊的時(shí)候,在網(wǎng)絡(luò)編碼層中加入一些AI訓(xùn)練過(guò)程的加速方法,其次是探索加解密方面是不是有更好的一些算法等。
Q5:蜂巢平臺(tái)的相關(guān)資料很少,如何能夠了解與學(xué)習(xí)?
王健宗:蜂巢平臺(tái)在設(shè)計(jì)的時(shí)候,我希望它可以作為一個(gè)成熟的產(chǎn)品面世。在整個(gè)平安這一綜合金融體系下,關(guān)于蜂巢平臺(tái)要做的工作是非常多的,如先前列舉的銀行、證券的案例。
實(shí)際上,關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)也有諸多工作要做,包括來(lái)自平安在做智慧城市、智慧醫(yī)療方面的數(shù)據(jù),是有很多的開(kāi)發(fā)空間。蜂巢平臺(tái)天然具備聯(lián)邦智能的架構(gòu),并逐步面向市場(chǎng)提供服務(wù)。
在后續(xù)的工作中,如果我們內(nèi)部做到足夠好,將會(huì)進(jìn)行開(kāi)源,我覺(jué)得這也是未來(lái)蜂巢平臺(tái)的一個(gè)發(fā)展趨勢(shì)。相關(guān)資料我在很多公開(kāi)場(chǎng)合都有講到,大家如果有興趣,可以共同來(lái)探討、優(yōu)化蜂巢平臺(tái)。
Q6:企業(yè)場(chǎng)景除金融行業(yè)之外,是否還有其他典型案例?聯(lián)邦學(xué)習(xí)計(jì)算資源如何計(jì)費(fèi)?
王健宗:在過(guò)去幾年,我一直在做聯(lián)邦學(xué)習(xí),并認(rèn)知到,只要你有數(shù)據(jù),就會(huì)存在可以應(yīng)用的場(chǎng)景。
最近,我們?cè)谔接懸恍┲腔鄢鞘械膽?yīng)用。同時(shí)發(fā)現(xiàn),在社會(huì)治理結(jié)構(gòu)方面存在參差不齊的現(xiàn)象。諸如政府社保、企業(yè)投資風(fēng)控等,都是需要專(zhuān)業(yè)的應(yīng)用模型。
我們?cè)谥贫ń鉀Q過(guò)程中,很多數(shù)據(jù)包括政府里面的財(cái)務(wù)數(shù)據(jù)都是不互通的,所以我們的平臺(tái)可能會(huì)有應(yīng)用機(jī)會(huì)。
關(guān)于如何計(jì)費(fèi),我們?cè)诼?lián)邦激勵(lì)中設(shè)計(jì)有支付機(jī)制,另外就是基于企業(yè)AI本身的分配模式。
Q7:蜂巢平臺(tái)對(duì)標(biāo)的競(jìng)品是什么?
王健宗:平安的聯(lián)邦學(xué)習(xí)平臺(tái)起步較早,在初期還沒(méi)有相關(guān)的可以對(duì)標(biāo)的競(jìng)品,在產(chǎn)品設(shè)計(jì)初期我以加速AI落地為目標(biāo),期望打造一個(gè)能夠完全自主可控、自主研發(fā)的企業(yè)級(jí)聯(lián)邦智能平臺(tái),賦能人工智能各領(lǐng)域。
經(jīng)過(guò)長(zhǎng)時(shí)間的沉淀,目前是個(gè)天然自適應(yīng)于聯(lián)邦智能生態(tài)的AI平臺(tái)產(chǎn)品,它不僅僅具備聯(lián)邦學(xué)習(xí)的能力,還引入AutoML理念,匯集了流程自動(dòng)化、自動(dòng)數(shù)據(jù)增強(qiáng)、分布式加速、自動(dòng)模型壓縮、自動(dòng)調(diào)參、自動(dòng)搭建網(wǎng)絡(luò)等自動(dòng)化機(jī)器學(xué)習(xí)尖端技術(shù)。
同時(shí),蜂巢的設(shè)計(jì)嚴(yán)格參照國(guó)家金融標(biāo)準(zhǔn)委員會(huì)、國(guó)家保密標(biāo)準(zhǔn)等國(guó)內(nèi)外相關(guān)標(biāo)準(zhǔn)和規(guī)范,確保蜂巢能夠具備普適性、通用性和魯棒性。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章