谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

本文作者：奕欣

2017-04-23 08:54

導(dǎo)語： 2017 年谷歌博士生獎研金獲得華人學(xué)生之一、南加利福尼亞大學(xué)博士生徐海峰讓我們懂得，成功之神的垂青絕非偶然，更多的是謹(jǐn)慎、謙虛的努力。

雷鋒網(wǎng) AI 科技評論按：2017 年的谷歌博士生獎研金（ Google PhD Fellowship）北美、歐洲、中東地區(qū)日前評選名單出爐，這個從 2009 年成立的項目旨在表彰在計算機科學(xué)領(lǐng)域表現(xiàn)優(yōu)異的博士生。日前，雷鋒網(wǎng) AI 科技評論與七名獲此殊榮的華人學(xué)生之一、南加利福尼亞大學(xué)博士生徐海峰進行了交流。

徐海峰，2012 年畢業(yè)于中國科學(xué)技術(shù)大學(xué)少年班學(xué)院（華羅庚班），在加拿大滑鐵盧大學(xué)進行計算數(shù)學(xué)的研究后，于 2013 年赴美國南加利福尼亞大學(xué)攻讀博士學(xué)位，師從 Shaddin Dughmi 和 Milind Tambe，主要研究領(lǐng)域為算法博弈論、信息經(jīng)濟及算法設(shè)計與分析。

谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

當(dāng)?shù)弥约韩@得谷歌博士生獎研金之后，徐海峰在朋友圈分享了這一好消息：「Made my day[大哭]」。

谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

徐海峰獲得谷歌博士生獎研金所屬的類別為「算法、優(yōu)化及市場」，同時獲得這一類別獎學(xué)金的另外兩位獲獎?wù)叻謩e來自 UC 伯克利大學(xué)及哈佛大學(xué)。在獲此殊榮的背后，是嚴(yán)格的評審過程與激烈的競爭流程。獎研金需要博士生導(dǎo)師向?qū)W校推薦，而每個學(xué)校只能在其中選出兩名博士生，并代表候選人向谷歌提交申請，材料包括候選人的博士論文提案、簡歷和三封推薦信。徐海峰收到的郵件中顯示，谷歌成立了一個由研究科學(xué)家組成的專家評審團進行評估。

2017 年的谷歌博士生獎研金在北美、歐洲、中東地區(qū)評選出 33 位優(yōu)秀的博士生，而作為七位華人獲獎學(xué)生之一的徐海峰，雖然調(diào)侃著「總算可以給老板省點錢」，但他也覺得自己非常幸運?！柑貏e感謝所有幫助過我的人，尤其是我的導(dǎo)師?！?/p>

而徐海峰為何會與算法博弈論結(jié)緣，就要追溯到他的本科經(jīng)歷了。在中國科學(xué)技術(shù)大學(xué)少年班學(xué)院（華羅庚班）就讀數(shù)學(xué)方向的徐海峰，于大四期間在微軟亞洲研究院劉鐵巖博士的研究小組里實習(xí)。在高斌老師的指導(dǎo)下，他第一次接觸到算法博弈論，并且被它深深吸引。「那時的我覺得這是一個完美地結(jié)合了數(shù)學(xué)，計算機和經(jīng)濟學(xué)，同時具備理論和實際應(yīng)用價值的領(lǐng)域，正是我想做的東西。」

在積累了一年計算數(shù)學(xué)的基礎(chǔ)后，徐海峰得以在心儀的領(lǐng)域攻讀博士。在回顧這段歷程時，他也對劉鐵巖老師與高斌老師，以及所有研究人員表達了感激之情。

徐海峰的博士課題是從計算角度研究信息的戰(zhàn)略作用，是算法博弈論近年剛興起的一個熱門研究方向。目前，徐海峰除了專注于此類問題的理論基礎(chǔ)研究，也在導(dǎo)師 Milind Tambe 領(lǐng)導(dǎo)的 Teamcore 小組進行偏應(yīng)用型的科研工作，此前接受雷鋒網(wǎng)采訪的南洋理工大學(xué)的安波博士也同為這一小組的成員。從官網(wǎng)可以了解到，這一小組的科研主題是用人工智能做有益于社會的事情（AI for Social Good）。徐海峰向雷鋒網(wǎng)介紹道，團隊成員雖然背景不盡相同，涵蓋數(shù)學(xué)、物理、經(jīng)濟學(xué)、軟件工程等專業(yè)，但他認(rèn)為不同學(xué)科思維模式的交流能夠幫助各自的研究?！附M里已經(jīng)實現(xiàn)的應(yīng)用包括優(yōu)化美國聯(lián)邦空警的戰(zhàn)略部署，優(yōu)化美國海軍警衛(wèi)隊的巡邏路線以及設(shè)計馬來西亞自然保護區(qū)護林人員的巡邏路線等等?！?/p>

近年來，對信息在博弈中的戰(zhàn)略作用的研究獲得了很多著名經(jīng)濟學(xué)家和計算機科學(xué)家的關(guān)注，比如 2014 年獲得卡拉克獎?wù)碌乃固垢４髮W(xué)經(jīng)濟學(xué)教授 Matthew Gentzkow 近年來發(fā)表了數(shù)篇相關(guān)論文（雷鋒網(wǎng)按：每兩年頒發(fā)一次的卡拉克獎授予 40 歲以下為經(jīng)濟思想和理論做出最重要貢獻的美國經(jīng)濟學(xué)家，大部分得主獲得該獎之后都獲得了諾貝爾經(jīng)濟學(xué)獎，因此也有著「小諾貝爾經(jīng)濟學(xué)獎」的美譽）。而對于互聯(lián)網(wǎng)巨頭而言，信息的戰(zhàn)略意義也是一個值得關(guān)注的問題。

像 Facebook、谷歌這樣的大公司，雖然在大數(shù)據(jù)時代的驅(qū)動下?lián)碛泻芏嘈畔?，但如何?zhàn)略性地利用這些信息實現(xiàn)收益最大化，就涉及到公司與同行之間以及與客戶（例如廣告商）之間的博弈?！负芏鄷r候最優(yōu)的信息策略需要計算出來，所以需要人們從計算角度研究信息的戰(zhàn)略作用。舉個例子，谷歌對每一個互聯(lián)網(wǎng)用戶的描述有上千個特征，向廣告商提供其中的哪些特征能使收益最大化？這里可供選擇的特征組合超過 2¹⁰⁰⁰種，比人體的細(xì)胞還要多很多，要從如此多的選擇中選出最優(yōu)的那一個，只能求助于優(yōu)化算法?！剐旌７甯嬖V雷鋒網(wǎng)，他去年在谷歌實習(xí)之時，主要研究的課題就是谷歌與廣告商之間的博弈。

但在設(shè)計算法的時候，徐海峰提及存在兩個主要的難點。

首先是系統(tǒng)的分析難度大。在信息不對稱的情況下，連博弈參與者的行為都難以分析，更不要說計算基于其行為的最優(yōu)信息策略了。

其次是不對稱信息對博弈結(jié)果存在影響。不同博弈參與者本身各自擁有不同的信息，信息策略設(shè)計者還需要考慮參與者自身擁有的信息對博弈的影響。

博弈論的算法設(shè)計與研究都是基于完全理性參與者的假設(shè)，但實際上很少有完全理性的個體。這樣一來，算法博弈論是否會淪為「空中樓閣」的紙上談兵呢？徐海峰表示，這一問題確實存在，模型有時候不能完全描述實際情況。而為了彌補這一鴻溝，可以有兩種解決方式，「一是對人的理性程度進行建模。另一種辦法是做魯棒優(yōu)化，使結(jié)果適合不同理性程度的參與者?！?/p>

實際上，博弈論的決策權(quán)衡與機器學(xué)習(xí)最終面臨現(xiàn)實問題的情況非常類似，就像前面所說的，博弈參與者要實現(xiàn)「絕對理性」的可能性極小，加上復(fù)雜多變的現(xiàn)實狀況，可能很難直接用公式來描述。那么這樣一來，一個順理成章的做法就是用機器學(xué)習(xí)模型來刻畫博弈參與者的行為，「這樣不同的參與者就可以被看成是不同的機器學(xué)習(xí)模型，博弈變成了機器學(xué)習(xí)模型之間的博弈。如果可以對談判人的衡量標(biāo)準(zhǔn)進行量化，那么用機器人代替人談判是完全有可能的，在未來或許也能誕生自動商業(yè)談判、自動公司決策等很多新的行業(yè)?！?/p>

反過來，博弈論也影響了機器學(xué)習(xí)模型的設(shè)計，比如生成式模型（GANs）就是基于零和博弈而產(chǎn)生的。生成器模型希望通過制造以假亂真的內(nèi)容來「騙」過判別器，而判別器也需要不斷提升自己的判斷能力，以甄別偽造圖像和真實圖像。

徐海峰透露，目前微軟亞洲研究院劉鐵巖博士的小組有做關(guān)于博弈論和機器學(xué)習(xí)的結(jié)合研究，采用機器學(xué)習(xí)來學(xué)習(xí)廣告商的行為，然后基于學(xué)出來的模型進行最優(yōu)機制設(shè)計。而 Teamcore 組里也有相關(guān)的研究工作，主要工作是在安全博弈中用機器學(xué)習(xí)模型來描述對手的策略，然后采用博弈論來進行決策。

在算法博弈論逐步成為一個新興研究領(lǐng)域的同時，在企業(yè)與高校分別都做過研究的徐海峰對機器學(xué)習(xí)的熱潮也頗有感觸?！冈谄髽I(yè)做研究的一個優(yōu)勢是能直接看到有實際應(yīng)用價值的問題，而在學(xué)校常常需要自己去想出一個有價值的課題。學(xué)校的一個優(yōu)勢在于可以做一些周期更長的研究，而企業(yè)出于多方面的考慮（比如時間，經(jīng)濟成本）往往需要即時可行的方案?！?/p>

而作為仍在學(xué)界做研究的學(xué)生，徐海峰覺得學(xué)術(shù)圈與時尚圈很相似，「有很多人趕時髦，也有很多人堅持自己的風(fēng)格，」他平時也會關(guān)注學(xué)界的熱點課題，認(rèn)為這樣對自己的研究也會有啟發(fā)。但不論如何，「我覺得做自己喜歡的有價值的課題就好?！?/p>

正是抱著解決問題的心態(tài)去做研究，徐海峰的論文在去年獲得了 AAMAS 的最佳學(xué)生作品獎；而他關(guān)于安全博弈的算法設(shè)計論文也入選了 EC 2016，并在 SecMas Workshop 獲得最佳論文。

但當(dāng)談起獲獎的心得與經(jīng)驗時，徐海峰非常謙虛地表示，這是一件「仁者見仁智者見智」的事，「我覺得最佳論文是可遇而不可求的，很難說有一個標(biāo)準(zhǔn)?！顾蔡峒皩?dǎo)師對他的教誨，「導(dǎo)師告訴我要試著去解決最基本的問題，對問題提供最自然最完整的解決方案，至于結(jié)果，只能留給別人評判了?！?/p>

而或許這樣的研究理念，讓徐海峰獲得谷歌博士生獎研金成為了情理之中的事，「能夠研究自己喜歡的課題并得到認(rèn)可，對我來說，是很好的鼓勵?！顾沧屛覀兌?，成功之神的垂青絕非偶然，更多的是謹(jǐn)慎、謙虛的努力。雷鋒網(wǎng)也將持續(xù)關(guān)注徐海峰的動態(tài)，見證他在算法博弈論研究上的發(fā)光發(fā)熱。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章