丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給陳彩嫻
發(fā)送

0

邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020

導語:在數(shù)據(jù)隱私日益得到重視的當下,聯(lián)邦學習具有非常大的現(xiàn)實意義。但在聯(lián)邦學習的商業(yè)落地過程中,除了數(shù)據(jù)隱私的考慮之外,為聯(lián)邦學習的參與者提供充足的經(jīng)濟激勵也是必不可

???

邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020

8月7日-8月9日,2020年全球人工智能和機器人峰會(簡稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦,以“AI新基建 產(chǎn)業(yè)新機遇”為大會主題,致力打造國內(nèi)人工智能和機器人領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資領域盛會。雷鋒網(wǎng)
8月9日下午,在「聯(lián)邦學習與大數(shù)據(jù)隱私專場」上,邏輯匯創(chuàng)始人叢明舒博士進行了題為「聯(lián)邦學習中的經(jīng)濟激勵:從博弈論視角分析聯(lián)邦學習商業(yè)化過程的經(jīng)濟激勵機制」的演講。雷鋒網(wǎng)
以下是叢明舒老師在大會的演講實錄,AI科技評論作了不修改原意的整理和編輯:
在數(shù)據(jù)隱私日益得到重視的當下,聯(lián)邦學習具有非常大的現(xiàn)實意義。但在聯(lián)邦學習的商業(yè)落地過程中,除了數(shù)據(jù)隱私的考慮之外,為聯(lián)邦學習的參與者提供充足的經(jīng)濟激勵也是必不可少的。

1


個體理性約束
為什么要在聯(lián)邦學習中引入經(jīng)濟激勵機制?因為在聯(lián)邦學習的過程中,非??赡艽嬖趥€體利益和集體利益的沖突而導致合作失敗。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
這幾年在跟進聯(lián)邦學習項目的過程中,我們遇到一個例子:保險公司之間希望通過聯(lián)邦學習建立一個模型來對保險的賠付率進行更加精確的預測,但是在項目落地的過程中,項目發(fā)起人很快發(fā)現(xiàn),小的保險公司特別有興趣參加聯(lián)邦學習,但大的保險公司卻興趣一般。為什么?我們用一個非常簡化的經(jīng)濟學模型來解釋這個問題。
假設市場上只有兩家保險公司,分別是A和B。A有海量數(shù)據(jù),B只有少量的數(shù)據(jù)。在獨立建模的情形下,A的模型要遠好于B的模型,所以A的市場占有率會非常高。如果A與B合作建模,聯(lián)邦模型的質(zhì)量會提升,總市場規(guī)模會擴大。但與此同時,由于A和B使用同樣的模型,A的市場占有率會下降。在這種情況下,A參與聯(lián)邦之后的收益反而低于它獨立建模的情形,所以A是沒有任何動力參與聯(lián)邦學習的。
在這里我們引入了博弈論的一個概念——“個體理性”。個體理性約束指的是,聯(lián)邦學習任何參與者的凈收益不能低于他不參與聯(lián)邦學習的情形。個體理性約束在博弈論中是一項非?;A的要求,但在上面所說的案例中,違反了參與者A的個體理性約束。 
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
針對上述的問題,我們認為在完全信息的情形下引入一個聯(lián)邦的組織者即可以解決。
這個聯(lián)邦組織者可以向每個模型的用戶收取一定的模型使用費用。這個費用相當于用戶使用模型所獲得的收益。然后聯(lián)邦組織者再將收取的模型使用費用轉(zhuǎn)化為聯(lián)邦的收入,按照A和B所貢獻的數(shù)據(jù)量比例將收益分配給A和B。在這種情形下,用戶A和用戶B的凈收益都會高于他們獨立建模的情形,因此這次合作是成功的。

2


激勵相容
但這個機制發(fā)揮作用的前提是,聯(lián)邦組織者要非常精確地知道這個模型會給各個用戶帶來多少收益,也非常精確地知道A和B各自貢獻數(shù)據(jù)的成本、擁有的數(shù)據(jù)量。但現(xiàn)實操作中存在信息不對稱,聯(lián)邦組織者沒有辦法掌握這些私有信息,所以聯(lián)邦的參與者可能會通過謊報這些私有信息,和聯(lián)邦組織者討價還價,導致合作失敗。
例子1:
聯(lián)邦學習組織的參與者謊報Ta使用聯(lián)邦模型所獲得的收益,稱聯(lián)邦模型作用不大,只能帶來非常少的收益,所以只付非常少的錢使用這種模型。在這種情況下,聯(lián)邦的收入降低,可用于二次分配的收入也會很低,這樣會導致用戶A的收益再次低于獨立建模的情形,合作失敗。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
例子2:
用戶高報貢獻數(shù)據(jù)的成本,跟組織者抱怨Ta的數(shù)據(jù)成本昂貴,要求組織者分配的收益務必要覆蓋Ta所付出的成本,不然不愿意參與組織者的聯(lián)邦學習??墒牵绻?lián)邦組織者覆蓋一個用戶的成本,就必然導致對其他用戶的支付減少。這種情況會導致其他用戶參與聯(lián)邦的凈收益低于獨立建模的情形,合作再次失敗。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
例子3:
參與方瞞報擁有的數(shù)據(jù)量。比如說,A一方面使用自己所擁有的海量數(shù)據(jù)獨立建模,同時拿出小部分質(zhì)量差的數(shù)據(jù)給聯(lián)邦學習和用戶B去一起建一個聯(lián)邦模型。這時候聯(lián)邦模型的質(zhì)量還不如私有模型,所以不會很大地損害用戶A的市場占有率,A又通過參與聯(lián)邦學習,從聯(lián)邦獲得一定的貢獻數(shù)據(jù)的報酬。在這個策略下,用戶A的凈收益要高于Ta誠實貢獻所有數(shù)據(jù)的情形,所以A有很大動力去說謊。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
這就要介紹博弈論的第二個概念:激勵相容。激勵相容約束是說,每個用戶誠實報告私有信息對Ta而言是最優(yōu)選擇。在這個情形下,用戶A的激勵相容約束是被打破的。由于用戶A說謊,這時候用戶B參與聯(lián)邦學習的凈收益小于Ta獨立建模的情形,合作再次失敗。
綜上所述,在聯(lián)邦學習中可能存在使用模型的收益、貢獻數(shù)據(jù)的成本以及參與者擁有的數(shù)據(jù)量的三重信息不對稱。這三重信息不對稱交織在一起,使得每個參與者追求個體利益最大化的結(jié)果是:集體利益受到損害,造成合作失敗。
聯(lián)邦學習的激勵機制設置就是為了解決上述問題。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
克服貢獻數(shù)據(jù)成本的信息不對稱有一個簡單機制,就是允許用戶隨便報成本,但是如果你報的成本太高,我就不再使用你的數(shù)據(jù)。雖然我不用你的數(shù)據(jù),但我還允許你使用我的模型,我會向你收取使用模型的費用。假設B報告的成本非常高,聯(lián)邦就不用B的數(shù)據(jù),從而也不需要向B支付覆蓋他成本的報酬。
在這種情況下,B會發(fā)現(xiàn),他不僅得不到額外的貢獻數(shù)據(jù)報酬,還需要支付模型使用費,相當于他的數(shù)據(jù)是沒辦法變現(xiàn)的,凈收益低于把數(shù)據(jù)貢獻出來的凈收益,那么B就沒有動力去虛報成本。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
如上圖所示,A和B的凈收益隨著他們所報告的成本變化而變化。大家可以發(fā)現(xiàn),無論B做了什么,A誠實報告成本都是Ta最優(yōu)的策略。無論A做了什么,B誠實報告成本也是Ta最優(yōu)的策略。在這個機制里,誠實報告貢獻數(shù)據(jù)的成本形成了占優(yōu)策略均衡。在這種占優(yōu)策略均衡下,沒有任何用戶愿意偏離均衡情況,大家都會愿意誠實報告成本。
上面例子給我們的啟示是,我們可以通過挑選數(shù)據(jù)貢獻者、控制模型的使用,以及合理計算對聯(lián)邦學習參與方的支付,來實現(xiàn)聯(lián)邦集體利益的最大化。

3


聯(lián)邦學習激勵機制的博弈論框架
在這個啟示下,我們提出了研究聯(lián)邦學習激勵機制博弈論的理論框架。
聯(lián)邦學習之激勵機制設計是為聯(lián)邦找到最優(yōu)的組織和支付結(jié)構(gòu),從而實現(xiàn)一系列優(yōu)化目標。組織結(jié)構(gòu)包括使用哪些數(shù)據(jù)提供者的數(shù)據(jù)和如何控制模型的使用,支付結(jié)構(gòu)指的是我們給每個參與方支付的金額。
遵循經(jīng)濟學的傳統(tǒng),我們畫出了聯(lián)邦學習經(jīng)濟資源循環(huán)流向圖(如下):
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
在聯(lián)邦學習中,模型使用者是否貢獻數(shù)據(jù)和是否使用模型應該分開。在這個模型中,供給側(cè)和需求側(cè)是分離的。一個數(shù)據(jù)提供者是否提供數(shù)據(jù)、提供多少數(shù)據(jù),與Ta能否使用模型和使用模型需要支付多少費用是無關的。
在我們設計的框架下,聯(lián)邦學習的參與者可以是數(shù)據(jù)提供者,也可以是模型使用者,或者兩者兼具。在供給側(cè),數(shù)據(jù)提供者提供數(shù)據(jù),獲得報酬。在需求側(cè),模型使用者使用模型,并支付一定的費用。
這時,數(shù)據(jù)提供者和模型使用者都會遵循Ta的個體利益最大化的原則去選擇策略。在供給側(cè),數(shù)據(jù)提供者會選擇報告Ta所擁有的數(shù)據(jù)量以及貢獻數(shù)據(jù)的成本。在需求側(cè),模型使用者會報告Ta使用模型得到的收益。
在可以預期參與者上述行為邏輯的情況下,我們的聯(lián)邦學習組織者要決定四件事情:1、決定使用哪些數(shù)據(jù)提供者的數(shù)據(jù),以及從每個數(shù)據(jù)提供者中使用多少數(shù)據(jù);2、計算給每個數(shù)據(jù)提供者的報酬;3、在需求側(cè)計算對不同模型使用者使用模型的權限控制;4、計算對每個模型使用者收取的費用。
對聯(lián)邦學習的組織者而言,經(jīng)濟激勵計算可以被設置成比較標準的計算機模塊。這個模塊的輸入是數(shù)據(jù)提供者報告擁有的數(shù)據(jù)量、數(shù)據(jù)提供者報告的成本類型以及模型使用者報告的價值類型。模塊的輸出是從每個數(shù)據(jù)提供者那接收的數(shù)據(jù)、給每個數(shù)據(jù)提供者提供的報酬、使用模型的權限,以及向每個模型使用者的收費。
在這樣的框架下,我們遵循激勵機制設計所需要的兩個準則:
  1. 理性人準則
 正如剛才所提到的,設計者面對的都是追求自身利益最大化的理性人。
  1. 信息不對稱準則
設計者和理性人之間的信息是不對稱的。信息不對稱包括三種情形:1) Unaware,所謂的“黑天鵝事件”,完全不知道某件事會發(fā)生;2) Uncertain,知道某些事情有可能發(fā)生,不知道事情發(fā)生的概率;3) Unknown,知道事件發(fā)生的概率分布,但不知道具體發(fā)生了哪些事件。
此外,我們基于聯(lián)邦學習激勵機制設計了一些假設:
假設1:
擬線性環(huán)境&基于貨幣的機制設計。我們假設每個參與者的效用關于其擁有的金錢是呈線性的。由于有這個假設,我們可以通過調(diào)節(jié)給不同參與者的支付貨幣來調(diào)節(jié)Ta的效用,激勵Ta。
假設2:
數(shù)據(jù)供給與模型需求分開。
假設3:
存在外生資本市場。所以我們可以跨期調(diào)節(jié)聯(lián)邦學習的現(xiàn)金流,因為一般的聯(lián)邦學習項目開始有巨大現(xiàn)金投入,之后才產(chǎn)生收入,投入和收入在時間上不一定匹配。
在上述的假設下,我們優(yōu)化了如下的目標:
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
非常不幸的是,上述的目標之間存在此消彼長的平衡關系。所以在實際應用中,我們往往只選擇其中最重要的幾個目標進行優(yōu)化。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020

4


具體方案
為了說明聯(lián)邦學習激勵機制不是一個抽象的理論概念,我們簡單介紹兩個具體的方案:
方案一:位于需求側(cè)的Cremer-McLean機制
它是一個非常著名的博弈論機制,在需求側(cè)可以最大化聯(lián)邦的收入。
Cremer-McLean證明了如果不同模型使用者之間使用模型產(chǎn)生收益存在一定的相關性,那么我們就一定可以找到一種支付結(jié)構(gòu)使得聯(lián)邦的收入等于所有模型使用者使用模型的收益之和,從而使聯(lián)邦收入最大化。可是遵循傳統(tǒng)的Cremer-McLean的計算方法是非常昂貴的,所以我們可以通過用梯度下降算法最小化損失函數(shù)來求解Cremer-McLean機制,大大減少了計算復雜度。

       邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020

方案二:位于供給側(cè)的PVCG機制
這個機制的目的主要是激勵供給側(cè)提供數(shù)據(jù)。
PVCG機制在著名的VCG機制的基礎上加了一個調(diào)整項。VCG機制是一個曾經(jīng)獲得諾貝爾獎的理論成果,可以保證誠實報告參數(shù),對每個參與者而言都是占優(yōu)策略。我們的貢獻是,通過優(yōu)化神經(jīng)網(wǎng)絡加入一個調(diào)整項之后,PVCG機制可以同時滿足個體理性、激勵相容、社會最優(yōu)以及預算均衡。
邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020  邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020
關于聯(lián)邦學習激勵機制設計的更多內(nèi)容,請大家關注我們在楊強教授帶領下將于年底出版的新書《Federated Learning: Privacy and Incentive》。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

邏輯匯創(chuàng)始人叢明舒:聯(lián)邦學習中的經(jīng)濟激勵 | CCF-GAIR 2020

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說