谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

本文作者：奕欣

2017-04-23 08:54

導語： 2017 年谷歌博士生獎研金獲得華人學生之一、南加利福尼亞大學博士生徐海峰讓我們懂得，成功之神的垂青絕非偶然，更多的是謹慎、謙虛的努力。

雷鋒網(wǎng) AI 科技評論按：2017 年的谷歌博士生獎研金（ Google PhD Fellowship）北美、歐洲、中東地區(qū)日前評選名單出爐，這個從 2009 年成立的項目旨在表彰在計算機科學領域表現(xiàn)優(yōu)異的博士生。日前，雷鋒網(wǎng) AI 科技評論與七名獲此殊榮的華人學生之一、南加利福尼亞大學博士生徐海峰進行了交流。

徐海峰，2012 年畢業(yè)于中國科學技術大學少年班學院（華羅庚班），在加拿大滑鐵盧大學進行計算數(shù)學的研究后，于 2013 年赴美國南加利福尼亞大學攻讀博士學位，師從 Shaddin Dughmi 和 Milind Tambe，主要研究領域為算法博弈論、信息經(jīng)濟及算法設計與分析。

谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

當?shù)弥约韩@得谷歌博士生獎研金之后，徐海峰在朋友圈分享了這一好消息：「Made my day[大哭]」。

谷歌PhD獎研金獲得者徐海峰：“幸運”的算法博弈論之路

徐海峰獲得谷歌博士生獎研金所屬的類別為「算法、優(yōu)化及市場」，同時獲得這一類別獎學金的另外兩位獲獎者分別來自 UC 伯克利大學及哈佛大學。在獲此殊榮的背后，是嚴格的評審過程與激烈的競爭流程。獎研金需要博士生導師向學校推薦，而每個學校只能在其中選出兩名博士生，并代表候選人向谷歌提交申請，材料包括候選人的博士論文提案、簡歷和三封推薦信。徐海峰收到的郵件中顯示，谷歌成立了一個由研究科學家組成的專家評審團進行評估。

2017 年的谷歌博士生獎研金在北美、歐洲、中東地區(qū)評選出 33 位優(yōu)秀的博士生，而作為七位華人獲獎學生之一的徐海峰，雖然調侃著「總算可以給老板省點錢」，但他也覺得自己非常幸運?！柑貏e感謝所有幫助過我的人，尤其是我的導師。」

而徐海峰為何會與算法博弈論結緣，就要追溯到他的本科經(jīng)歷了。在中國科學技術大學少年班學院（華羅庚班）就讀數(shù)學方向的徐海峰，于大四期間在微軟亞洲研究院劉鐵巖博士的研究小組里實習。在高斌老師的指導下，他第一次接觸到算法博弈論，并且被它深深吸引?！改菚r的我覺得這是一個完美地結合了數(shù)學，計算機和經(jīng)濟學，同時具備理論和實際應用價值的領域，正是我想做的東西。」

在積累了一年計算數(shù)學的基礎后，徐海峰得以在心儀的領域攻讀博士。在回顧這段歷程時，他也對劉鐵巖老師與高斌老師，以及所有研究人員表達了感激之情。

徐海峰的博士課題是從計算角度研究信息的戰(zhàn)略作用，是算法博弈論近年剛興起的一個熱門研究方向。目前，徐海峰除了專注于此類問題的理論基礎研究，也在導師 Milind Tambe 領導的 Teamcore 小組進行偏應用型的科研工作，此前接受雷鋒網(wǎng)采訪的南洋理工大學的安波博士也同為這一小組的成員。從官網(wǎng)可以了解到，這一小組的科研主題是用人工智能做有益于社會的事情（AI for Social Good）。徐海峰向雷鋒網(wǎng)介紹道，團隊成員雖然背景不盡相同，涵蓋數(shù)學、物理、經(jīng)濟學、軟件工程等專業(yè)，但他認為不同學科思維模式的交流能夠幫助各自的研究?！附M里已經(jīng)實現(xiàn)的應用包括優(yōu)化美國聯(lián)邦空警的戰(zhàn)略部署，優(yōu)化美國海軍警衛(wèi)隊的巡邏路線以及設計馬來西亞自然保護區(qū)護林人員的巡邏路線等等。」

近年來，對信息在博弈中的戰(zhàn)略作用的研究獲得了很多著名經(jīng)濟學家和計算機科學家的關注，比如 2014 年獲得卡拉克獎章的斯坦福大學經(jīng)濟學教授 Matthew Gentzkow 近年來發(fā)表了數(shù)篇相關論文（雷鋒網(wǎng)按：每兩年頒發(fā)一次的卡拉克獎授予 40 歲以下為經(jīng)濟思想和理論做出最重要貢獻的美國經(jīng)濟學家，大部分得主獲得該獎之后都獲得了諾貝爾經(jīng)濟學獎，因此也有著「小諾貝爾經(jīng)濟學獎」的美譽）。而對于互聯(lián)網(wǎng)巨頭而言，信息的戰(zhàn)略意義也是一個值得關注的問題。

像 Facebook、谷歌這樣的大公司，雖然在大數(shù)據(jù)時代的驅動下?lián)碛泻芏嘈畔?，但如何?zhàn)略性地利用這些信息實現(xiàn)收益最大化，就涉及到公司與同行之間以及與客戶（例如廣告商）之間的博弈?！负芏鄷r候最優(yōu)的信息策略需要計算出來，所以需要人們從計算角度研究信息的戰(zhàn)略作用。舉個例子，谷歌對每一個互聯(lián)網(wǎng)用戶的描述有上千個特征，向廣告商提供其中的哪些特征能使收益最大化？這里可供選擇的特征組合超過 2¹⁰⁰⁰種，比人體的細胞還要多很多，要從如此多的選擇中選出最優(yōu)的那一個，只能求助于優(yōu)化算法?！剐旌７甯嬖V雷鋒網(wǎng)，他去年在谷歌實習之時，主要研究的課題就是谷歌與廣告商之間的博弈。

但在設計算法的時候，徐海峰提及存在兩個主要的難點。

首先是系統(tǒng)的分析難度大。在信息不對稱的情況下，連博弈參與者的行為都難以分析，更不要說計算基于其行為的最優(yōu)信息策略了。

其次是不對稱信息對博弈結果存在影響。不同博弈參與者本身各自擁有不同的信息，信息策略設計者還需要考慮參與者自身擁有的信息對博弈的影響。

博弈論的算法設計與研究都是基于完全理性參與者的假設，但實際上很少有完全理性的個體。這樣一來，算法博弈論是否會淪為「空中樓閣」的紙上談兵呢？徐海峰表示，這一問題確實存在，模型有時候不能完全描述實際情況。而為了彌補這一鴻溝，可以有兩種解決方式，「一是對人的理性程度進行建模。另一種辦法是做魯棒優(yōu)化，使結果適合不同理性程度的參與者。」

實際上，博弈論的決策權衡與機器學習最終面臨現(xiàn)實問題的情況非常類似，就像前面所說的，博弈參與者要實現(xiàn)「絕對理性」的可能性極小，加上復雜多變的現(xiàn)實狀況，可能很難直接用公式來描述。那么這樣一來，一個順理成章的做法就是用機器學習模型來刻畫博弈參與者的行為，「這樣不同的參與者就可以被看成是不同的機器學習模型，博弈變成了機器學習模型之間的博弈。如果可以對談判人的衡量標準進行量化，那么用機器人代替人談判是完全有可能的，在未來或許也能誕生自動商業(yè)談判、自動公司決策等很多新的行業(yè)?！?/p>

反過來，博弈論也影響了機器學習模型的設計，比如生成式模型（GANs）就是基于零和博弈而產(chǎn)生的。生成器模型希望通過制造以假亂真的內容來「騙」過判別器，而判別器也需要不斷提升自己的判斷能力，以甄別偽造圖像和真實圖像。

徐海峰透露，目前微軟亞洲研究院劉鐵巖博士的小組有做關于博弈論和機器學習的結合研究，采用機器學習來學習廣告商的行為，然后基于學出來的模型進行最優(yōu)機制設計。而 Teamcore 組里也有相關的研究工作，主要工作是在安全博弈中用機器學習模型來描述對手的策略，然后采用博弈論來進行決策。

在算法博弈論逐步成為一個新興研究領域的同時，在企業(yè)與高校分別都做過研究的徐海峰對機器學習的熱潮也頗有感觸?！冈谄髽I(yè)做研究的一個優(yōu)勢是能直接看到有實際應用價值的問題，而在學校常常需要自己去想出一個有價值的課題。學校的一個優(yōu)勢在于可以做一些周期更長的研究，而企業(yè)出于多方面的考慮（比如時間，經(jīng)濟成本）往往需要即時可行的方案?！?/p>

而作為仍在學界做研究的學生，徐海峰覺得學術圈與時尚圈很相似，「有很多人趕時髦，也有很多人堅持自己的風格，」他平時也會關注學界的熱點課題，認為這樣對自己的研究也會有啟發(fā)。但不論如何，「我覺得做自己喜歡的有價值的課題就好?！?/p>

正是抱著解決問題的心態(tài)去做研究，徐海峰的論文在去年獲得了 AAMAS 的最佳學生作品獎；而他關于安全博弈的算法設計論文也入選了 EC 2016，并在 SecMas Workshop 獲得最佳論文。

但當談起獲獎的心得與經(jīng)驗時，徐海峰非常謙虛地表示，這是一件「仁者見仁智者見智」的事，「我覺得最佳論文是可遇而不可求的，很難說有一個標準?！顾蔡峒皩煂λ慕陶d，「導師告訴我要試著去解決最基本的問題，對問題提供最自然最完整的解決方案，至于結果，只能留給別人評判了。」

而或許這樣的研究理念，讓徐海峰獲得谷歌博士生獎研金成為了情理之中的事，「能夠研究自己喜歡的課題并得到認可，對我來說，是很好的鼓勵?！顾沧屛覀兌?，成功之神的垂青絕非偶然，更多的是謹慎、謙虛的努力。雷鋒網(wǎng)也將持續(xù)關注徐海峰的動態(tài)，見證他在算法博弈論研究上的發(fā)光發(fā)熱。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

2人收藏

奕欣

初心者

掃描關注作者微信

發(fā)私信

當月熱門文章