0
本文作者: 我在思考中 | 2022-05-10 10:40 |
編輯丨維克多
今年1月份,蘇黎世聯(lián)邦理工學(xué)院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)產(chǎn)業(yè)落地過(guò)程中常見(jiàn)挑戰(zhàn):如何開(kāi)展跨公司合作?
教授表示:通過(guò)數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集是一種方式,但有數(shù)據(jù)保密和隱私泄漏風(fēng)險(xiǎn),且受隱私相關(guān)法律的限制。
而保護(hù)隱私的分布式機(jī)器學(xué)習(xí)框架—聯(lián)邦學(xué)習(xí),能讓數(shù)據(jù)不出本地,解決上述痛點(diǎn)。
但傳統(tǒng)的聯(lián)邦學(xué)習(xí)目前并不能提供規(guī)范的隱私保護(hù)證明,此外,其場(chǎng)景容易受到因果攻擊。
因此,教授指出,結(jié)合聯(lián)邦學(xué)習(xí)和領(lǐng)域自適應(yīng),能夠更大限度讓合作公司從協(xié)作AI模型中受益,同時(shí)將原始訓(xùn)練數(shù)據(jù)保持在本地。
以下是Stefan Feuerriegelc教授對(duì)領(lǐng)域自適應(yīng)聯(lián)邦學(xué)習(xí)的介紹,由星云Clustar高級(jí)算法工程師張瀧玲、楊柳翻譯整理。
近年來(lái),以AI為核心的數(shù)字技術(shù)正在驅(qū)動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展。數(shù)據(jù)顯示,2030年,AI將使全球工業(yè)部門(mén)的經(jīng)濟(jì)活動(dòng)增加13萬(wàn)億美元。
然而,由于無(wú)法獲取或有效利用跨國(guó)公司數(shù)據(jù),使得這一技術(shù)的潛力在很大程度上仍未得到完全開(kāi)發(fā)。AI收益于大量具有代表性的數(shù)據(jù)(representative data),這些數(shù)據(jù)通常需要來(lái)自于多家公司,特別是在實(shí)際工業(yè)場(chǎng)景中,面對(duì)少見(jiàn)的意外事件或者關(guān)鍵系統(tǒng)狀態(tài),想使AI模型取得良好的性能是極具挑戰(zhàn)性的。
實(shí)現(xiàn)跨公司AI技術(shù)的一種直接方式是通過(guò)數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集。但出于數(shù)據(jù)保密和隱私泄漏風(fēng)險(xiǎn)的考慮,大多數(shù)公司都不愿意直接共享數(shù)據(jù)。并且在大多數(shù)情況下,共享數(shù)據(jù)受到隱私相關(guān)法律的限制。因此,具有領(lǐng)域自適應(yīng)的聯(lián)邦學(xué)習(xí)是解決跨公司AI問(wèn)題的關(guān)鍵,一方面,聯(lián)邦學(xué)習(xí)能夠在不泄漏各公司數(shù)據(jù)隱私的前提下,實(shí)現(xiàn)模型訓(xùn)練和推理;另一方面,領(lǐng)域自適應(yīng)允許各公司按照自己特定的應(yīng)用場(chǎng)景和條件,對(duì)聯(lián)邦模型做定制。
跨公司AI主要存在兩個(gè)障礙:
首先是跨公司的數(shù)據(jù)隱私性。因?yàn)橹苯庸蚕碓紨?shù)據(jù)可能會(huì)給競(jìng)爭(zhēng)對(duì)手公司暴露有關(guān)自身公司的運(yùn)營(yíng)流程或知識(shí)產(chǎn)權(quán)專(zhuān)有信息等。這一障礙常常出現(xiàn)在公司尋求與供應(yīng)商、客戶或競(jìng)爭(zhēng)對(duì)手公司想進(jìn)行AI合作時(shí)。
例如,制造工廠的數(shù)據(jù)可以揭示參數(shù)設(shè)置、產(chǎn)品成分、產(chǎn)率、產(chǎn)量、路線和機(jī)器正常運(yùn)行時(shí)間。如果此類(lèi)數(shù)據(jù)被泄漏,它可能會(huì)被客戶在公司談判中濫用或進(jìn)而幫助競(jìng)爭(zhēng)對(duì)手提高生產(chǎn)力和改進(jìn)產(chǎn)品。同時(shí)除了知識(shí)產(chǎn)權(quán)之外,一些深層的限制因素也會(huì)降低公司之間共享數(shù)據(jù)的意愿或傾向,例如公司間的信任程度、道德約束、保護(hù)公司用戶隱私權(quán)的法律法規(guī)以及網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。因此我們需要一個(gè)保護(hù)數(shù)據(jù)隱私的解決方案,即在不暴露各公司的源數(shù)據(jù)前提下進(jìn)行模型推斷。
其次是跨公司間的合作需要考慮到領(lǐng)域偏移(domain shifts)的影響。領(lǐng)域偏移是指為不同公司使用不同配置機(jī)器或操作系統(tǒng)采集得到的數(shù)據(jù)分布不匹配。例如,來(lái)自一家公司采集到的機(jī)器數(shù)據(jù)可能不能作為另一家公司的代表性數(shù)據(jù)由于不同機(jī)器數(shù)據(jù)采集條件不一樣。領(lǐng)域偏移給潛在的推論帶來(lái)了障礙:在一家公司的數(shù)據(jù)上訓(xùn)練得到的模型可能表現(xiàn)不佳當(dāng)部署到另一家數(shù)據(jù)分布明顯不同的公司時(shí)。
AI研究的最新進(jìn)展有望突破這兩個(gè)難題。聯(lián)邦學(xué)習(xí)是一種保護(hù)隱私的分布式機(jī)器學(xué)習(xí)框架,旨在讓多個(gè)邊緣設(shè)備或服務(wù)器在不共享數(shù)據(jù)樣本的前提下,通過(guò)共享本地模型參數(shù)(梯度或權(quán)重),共同進(jìn)行機(jī)器學(xué)習(xí)的模型訓(xùn)練。
跨公司的縱向聯(lián)邦學(xué)習(xí)可以從所有參與公司(例如,來(lái)自多個(gè)工廠、機(jī)車(chē)車(chē)輛廠或發(fā)電廠)的共同數(shù)據(jù)(joint data)中進(jìn)行,通過(guò)共享各公司的模型參數(shù)(梯度或權(quán)重),共同進(jìn)行機(jī)器學(xué)習(xí)的模型訓(xùn)練。
為了實(shí)現(xiàn)這一點(diǎn),跨公司的縱向聯(lián)邦學(xué)習(xí)通過(guò)將模型訓(xùn)練與對(duì)原始訓(xùn)練數(shù)據(jù)的訪問(wèn)解耦:各公司通過(guò)加密技術(shù)在不暴露各自的原始數(shù)據(jù)前提下對(duì)齊共同數(shù)據(jù)。通過(guò)利用各參與方本地?cái)?shù)據(jù)進(jìn)行模型訓(xùn)練,并將中間結(jié)果返回給協(xié)調(diào)方。協(xié)調(diào)方匯總各參與方的中間結(jié)果,構(gòu)建協(xié)作模型,以整體提升模型性能和效果。在此過(guò)程中,沒(méi)有公司有權(quán)直接訪問(wèn)到其他公司的原始訓(xùn)練數(shù)據(jù)。
在跨公司AI的背景下,針對(duì)跨公司間的合作的領(lǐng)域偏移問(wèn)題,由于不同公司的數(shù)據(jù)分布通常只是較少重疊,即目標(biāo)域和源域域有一定差異,我們引入領(lǐng)域自適應(yīng)理論,目標(biāo)是學(xué)習(xí)到的不變量,即不受合作公司的特定操作條件限制,從而減輕跨公司之間由于領(lǐng)域偏移產(chǎn)生的模型表現(xiàn)不佳的影響。
具體主要通過(guò)學(xué)習(xí)源域和目標(biāo)域的公共的特征表示,在公共特征空間,源域和目標(biāo)域的分布要盡可能相同,以便邊緣分布在特征空間中對(duì)齊。
跨公司AI合作可以通過(guò)使用聯(lián)邦學(xué)習(xí)來(lái)解決直接數(shù)據(jù)共享的隱私保護(hù)的障礙和通過(guò)域適應(yīng)解決領(lǐng)域偏移的障礙。這種組合通常被稱為聯(lián)邦遷移學(xué)習(xí)。
在工業(yè)生態(tài)系統(tǒng)中通常會(huì)遇到兩種類(lèi)型的遷移學(xué)習(xí)方法,通常將故障視為標(biāo)簽但由于故障通常在系統(tǒng)中不常見(jiàn),因此是不均衡。通常出現(xiàn)標(biāo)簽在源域中出現(xiàn)但在目標(biāo)域中沒(méi)有(稱為無(wú)監(jiān)督域適應(yīng));標(biāo)簽在源域和目標(biāo)域中都沒(méi)有(稱為無(wú)監(jiān)督遷移學(xué)習(xí))
公司可以結(jié)合聯(lián)邦學(xué)習(xí)和領(lǐng)域自適應(yīng),在工業(yè)生態(tài)系統(tǒng)中實(shí)現(xiàn)協(xié)同AI。一旦部署,它允許合作公司從協(xié)作AI模型中受益,同時(shí)將原始訓(xùn)練數(shù)據(jù)保持在本地。同時(shí),協(xié)作模型的訓(xùn)練方式可以很好地概括每家公司的數(shù)據(jù)。并且任何時(shí)候都不會(huì)共享跨公司的邊界專(zhuān)有數(shù)據(jù),只有模型的中間結(jié)果(例如梯度)在公司之間共享,此外,協(xié)作模型通過(guò)學(xué)習(xí)不變量來(lái)代表公司之間的異質(zhì)性程度。例如,不受公司特定運(yùn)營(yíng)條件的影響,每個(gè)參與的利益相關(guān)公司能夠通過(guò)其他合作公司的經(jīng)驗(yàn)來(lái)擴(kuò)展自己的運(yùn)營(yíng)經(jīng)驗(yàn)。
對(duì)于工業(yè)生態(tài)系統(tǒng),傳統(tǒng)的聯(lián)邦學(xué)習(xí)中的訓(xùn)練過(guò)程通常由中央服務(wù)器協(xié)調(diào)各參與者,但一方面,由于中央服務(wù)器的瓶頸特性,可能會(huì)造成潛在的漏洞。另一方面,這種集中式架構(gòu)目前也僅僅應(yīng)用到雙邊合作這種普遍的場(chǎng)景。
去中心化的方式實(shí)施跨公司的AI合作的是十分具有潛力和巨大價(jià)值的,因此引入了去中心化的學(xué)習(xí)設(shè)置。在去中心化聯(lián)邦學(xué)習(xí)中,與中央服務(wù)器的通信被替換為對(duì)等通信,這對(duì)于由應(yīng)用程序或操作條件的相似性和特定用例和操作條件的演變動(dòng)態(tài)形成子網(wǎng)絡(luò)內(nèi)的跨公司協(xié)作。同時(shí)為了完成傳統(tǒng)的中央服務(wù)器的任務(wù),分布式賬本技術(shù)的使用在此處的應(yīng)用也是可行的。最后,這里討論的方法需要根據(jù)跨企業(yè)的實(shí)踐經(jīng)驗(yàn)中進(jìn)行選擇,以便公司選擇是否更傾向集中式或去中心化方法的聯(lián)邦學(xué)習(xí)。
雖然聯(lián)邦學(xué)習(xí)能夠提供較為顯著的隱私保護(hù)策略,并鼓勵(lì)跨公司邊界的協(xié)作,但迄今為止,傳統(tǒng)的聯(lián)邦學(xué)習(xí)目前并不能提供規(guī)范的隱私保護(hù)證明,半誠(chéng)實(shí)參與方是可能從梯度更新和之前的模型參數(shù)中推斷出一些信息。此外,傳統(tǒng)的聯(lián)邦學(xué)習(xí)場(chǎng)景容易受到因果攻擊,即訓(xùn)練好的模型可能會(huì)因參與方錯(cuò)誤的模型更新而遭到破壞。對(duì)于公司而言,避免此類(lèi)攻擊的實(shí)施是非常重要的,這里有一種解決方案是提出使用額外的隱私保護(hù)技術(shù),例如差分隱私或密碼學(xué)手段等等。
結(jié)合聯(lián)邦學(xué)習(xí)和領(lǐng)域自適應(yīng)
對(duì)于從業(yè)者而言,將跨公司的AI合作引入工業(yè)生態(tài)系統(tǒng)將需要指導(dǎo)和實(shí)施過(guò)程的一系列設(shè)計(jì)原則。例如,如果兩家公司的應(yīng)用程序內(nèi)的數(shù)據(jù)分布沒(méi)有明顯的領(lǐng)域偏移,則可以直接應(yīng)用聯(lián)邦學(xué)習(xí)而不需要與領(lǐng)域自適應(yīng)相結(jié)合等。
此外,跨公司AI合作的實(shí)施必須滿足實(shí)踐的進(jìn)一步需求,這可能需要更多擴(kuò)展,例如持續(xù)學(xué)習(xí)和數(shù)據(jù)異質(zhì)性的解決方案。例如,對(duì)于高度異構(gòu)的系統(tǒng),必須選擇足夠魯棒的模型實(shí)現(xiàn),從而實(shí)現(xiàn)可遷移性(例如,跨不同的產(chǎn)品型號(hào)、不同的傳感器組組合或不同的制造商)。同時(shí)隨著時(shí)間的推移,行業(yè)成熟后也應(yīng)該做好引導(dǎo)工作來(lái)制定一系列的標(biāo)準(zhǔn)規(guī)范跨公司合作進(jìn)一步釋放AI的力量。
將聯(lián)邦學(xué)習(xí)與領(lǐng)域適應(yīng)相結(jié)合,可以在跨公司合作中釋放AI的力量。這種跨公司的AI合作可以擴(kuò)展到傳統(tǒng)的供應(yīng)鏈或領(lǐng)域之外。例如,創(chuàng)建合作評(píng)級(jí)組織的大型生態(tài)系統(tǒng)。雖然這一愿景可能會(huì)在不久的將來(lái)實(shí)現(xiàn),但公司可以開(kāi)始在值得信賴的合作伙伴中學(xué)習(xí)和使用這項(xiàng)新技術(shù)。同時(shí)仍然需要開(kāi)發(fā)公平指標(biāo)去分配模型,這是跨公司AI合作的微觀經(jīng)濟(jì)含義。行業(yè)經(jīng)理應(yīng)確定可以幫助更全面優(yōu)化其績(jī)效的數(shù)據(jù)合作伙伴,做到與系統(tǒng)思維保持一致。
跨公司的 AI 還可以激發(fā)新的商業(yè)模式,例如通過(guò)AI即提供服務(wù)或由第三方公司支持?jǐn)?shù)據(jù)。特別是中小型公司將從利用其他公司的數(shù)據(jù)資源中受益。在這方面,服務(wù)系統(tǒng)工程可以幫助制定基于跨公司AI設(shè)計(jì)和開(kāi)發(fā)服務(wù)系統(tǒng)網(wǎng)絡(luò)的系統(tǒng)原則。朝著這個(gè)方向邁出的第一步是系統(tǒng)地理解利益相關(guān)者和資源之間的價(jià)值共創(chuàng)模式。
跨公司利用AI合作將受益于正在進(jìn)行的研究。目前研究也在做出新的嘗試來(lái)推進(jìn)聯(lián)邦學(xué)習(xí),提高其可擴(kuò)展性、魯棒性和有效性,同時(shí)加強(qiáng)的隱私保護(hù)和提高模型性能方面。對(duì)這些具有領(lǐng)域自適應(yīng)能力的聯(lián)邦學(xué)習(xí)可以促進(jìn)跨公司邊界使用AI合作呈指數(shù)級(jí)增長(zhǎng)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。