0
本文作者: 張棟 | 編輯:溫曉樺 | 2017-07-11 11:59 | 專題:GAIR 2017 |
7月7日,由中國計算機學會(CCF)主辦,雷鋒網(wǎng)和香港中文大學(深圳)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會在深圳隆重開幕。會議第二天,香港科技大學資訊、商業(yè)統(tǒng)計及運營學系教授張曉泉(Professor Michael Zhang)帶來了題為《經(jīng)濟學家眼中的金融科技創(chuàng)新》的主題演講。
張曉泉,2006 年獲美國麻省理工學院(MIT Sloan School of Management)管理學博士學位,此前在清華大學獲得管理學碩士、工學學士和文學學士學位,他的研究領域主要包括營銷策略、大數(shù)據(jù)營銷、商業(yè)人工智能以及互聯(lián)網(wǎng)金融。學術論文曾發(fā)表在《美國經(jīng)濟評論》、《管理科學》等知名學術期刊。同時他也是招商證券、中國移動、華為等公司和機構的顧問。是美國知名華人社區(qū) MITBBS 創(chuàng)始人,Information Systems Research (信息系統(tǒng)研究)的高級主編,同時還身兼招商證券、中國移動、華為、香港數(shù)碼港、阿里巴巴旗下湖畔大學等公司和機構的高級顧問。
在本次演講中,張曉泉教授從AI 需要金融、金融與 AI 相互融合、決策問題等三個方向向與會觀眾介紹了AI在金融領域的創(chuàng)新與應用。
他認為,科技與金融其實并非魚與熊掌,自人工智能、大數(shù)據(jù)、機器學習興起以來,利用AI技術研究金融問題已屢見不鮮,AI 技術需要經(jīng)濟領域的研究方法和思路,經(jīng)濟學方法也可以助力 AI,應用于研究大數(shù)據(jù)的產(chǎn)生、傳播和處理。雷鋒網(wǎng)亦認為,隨著 AI 技術的不斷完善發(fā)展,金融和科技領域的相互融合已經(jīng)是大勢所趨。
在他看來,自古以來,金融市場真正在做的事就是讓資源更好地分配,如最早開始用紙幣,后來有信用卡,現(xiàn)在是區(qū)塊鏈的出現(xiàn),不同的技術雖然一直往前發(fā)展,但其實都是讓人類越來越有效的做資源分配。
另外,在商業(yè)智能方面,張曉泉教授總結了數(shù)據(jù)到價值的轉化鏈條:數(shù)據(jù)-信息-知識-能力-策略-價值。
他表示數(shù)據(jù)首先要變成信息,信息變成知識,知識變成能力,能力變成策略,策略變成價值,這個鏈條是非常重要的,每一步不可缺。數(shù)據(jù)首先通過場景變成信息,信息組織成體系后就變成知識,知識轉化成能力,各種能力綜合起來構成策略,策略的執(zhí)行產(chǎn)生價值,這個邏輯非常清楚。真正產(chǎn)生商業(yè)智能,不是說我們有了大數(shù)據(jù)就可以了,也不是說我們有了海量數(shù)據(jù)就能夠立刻做出有價值的東西,其實整個鏈條是這樣的一個邏輯,缺一不可。
再者,他認為,我們在工作生活中有很多的不確定性,這些不確定性可以有不同的統(tǒng)計學描述和意義:
第一個是 certainty,也就是 100% 會實現(xiàn)的。
下一個是 Risk 風險,可以用隨機分布函數(shù)描述 。
下一個是 black swan,也就是小概率事件,雖然概率小,但會發(fā)生。
再下一個是 ambiguity 模糊性,“比如即便我有世界上過去所有股市的數(shù)據(jù),我仍然不知道明天會漲還是會跌,不知道都有什么樣的影響因素,如果不考慮這樣的模糊性而僅僅用概率分布來做預測,就會有非常大的偏差” 。
最后一個是 Radical Uncertainty,恐怖襲擊我們知道它會發(fā)生,但是不知道什么時候會發(fā)生、在哪里發(fā)生、怎么發(fā)生。“當你有這種 Radica Uncertainty 的時候,你是沒法描述這件事的,你沒法寫一個模型說怎么預測恐怖分子究竟會怎么樣去做”。
在這五個級別的問題中,第五級的問題是沒辦法解決的,第四級的問題我們有沒有辦法解決,目前正在研究。張曉泉教授覺得大部分的是在第二級層面上解決問題,他認為世界上大多數(shù)問題也的確是第二級的?!氨热缯f我要預測這個圖片是貓還是狗,其實這個事沒有那么多黑天鵝事件,大部分問題可以在第二級能夠解決”。
但張曉泉教授同時表示:“有些問題,比如談到股票市場,可能你就沒法在第二級解決,你即便知道世界上所有信息,你無法預計明天股票的概率。這就超出了第二級別的范疇,這是學術界在努力的一個方向,未來會對整個行業(yè)有巨大的意義”。
以下是張曉泉教授的演講全文,雷鋒網(wǎng)作了不改變原意的編輯:
非常感謝。我今天主要講一下AI和經(jīng)濟學有什么關系。雖然隔行如隔山,但他山之石也可以攻玉。如果你了解經(jīng)濟學在做什么,AI將會變得非常有意思。
最近很多媒體都在傳播說AI要代替人類。這個事情在商學院也討論的非常多,未來社會將會變成什么樣?我們以后是不是就失去工作了?
有條新聞是說律師需要36萬小時的工作,被一個軟件可以在幾秒鐘之內(nèi)做掉;另外,包括說投資銀行的分析師馬上是夕陽行業(yè),四大會計事務所現(xiàn)在也開始做AI了。
還有新聞說很多年薪超過35萬美金的人很快要失業(yè)了,換算成人民幣大概是200萬元人民幣。所以如果在座的誰的年薪超過200萬就快要失業(yè)了。(觀眾笑)笑的人可能都是年薪不到200萬的,不過你失業(yè)的機會可能更快。
紐約大學金融系的系主任前段時間到科大做講座。他說,傳統(tǒng)的審計、律師、金融等行業(yè)在未來的5到10年內(nèi)都會受到非常大的影響。未來10年內(nèi),銀行和股市要不就關閉、要不就轉型;到了2030年,學校里的金融系和會計系都要關掉。他說的非常恐怖,但如果細想一下,如今科技的確對金融造成了不小的影響。
他認為,在商學院里面唯一要教的一門課就叫Fintech。如果在谷歌上搜索,紅線是machine learning,藍線是fintech。這兩條線相關性很高,fintech底層是什么?應該就是machine learning。在2006年以前,就有很多公司解決了支付等一系列問題,再往后,每年都有非常多的fintech公司出現(xiàn)。從這個過程中可以發(fā)現(xiàn),靠前的公司讓金融工作變得更加簡單,而后面的公司則是讓金融變得更加智能,越來越多的公司都準備用人工智能來解決現(xiàn)存的問題。
到后來我們發(fā)現(xiàn),會計、認證、傳統(tǒng)的銀行業(yè)務、信用、貸款、投資、保險等這些行業(yè)都沒有變,改變的是如何利用解決問題的方案,從而讓問題變得更加簡單、讓事情變得更加高效。
金融市場的核心問題是讓資源配置變得更加有效?,F(xiàn)在很多人認為技術讓事情變得高效的同時,是否就改變了人的主導地位,或者根本就不需要人類了。這張圖是去年MIT Technology Review雜志封面圖,一開始人在用機器,但是后來機器變得越來越強大了,后來人只要修一下機器就好了,最后機器修機器,不需要人了。這個Jobless Society到底對我們的改變有多大,我一會兒會和Bill Roscoe教授有討論的環(huán)節(jié),我們到時候再討論這個問題。
但是我個人認為,Jobless Society出現(xiàn)的幾率不大,過去100年間,有過很多類似的技術出現(xiàn),每次都有論調(diào)認為人類無工作可做。其實不然,昨天汪軍博士引用了笛卡爾的一句話,他說機器是無法有意識的。其實畢加索也說了一句話,畢加索在大概100年前說,計算機是沒有用的,它只能給我們答案。我覺得這句話非常對,為什么呢?因為我們解決問題的前提是提出問題,而計算機是無法提出問題的。只要計算機一天無法自己提出問題,人類還是有辦法去做工作,去提出問題,讓計算機幫忙去解決。
我們現(xiàn)在能看到一些趨勢,這些趨勢加強了學術界和業(yè)界的緊密融合。舉例說:
一、做研究和應用,在之前的五到十年,很多超前的研究只會出現(xiàn)在大學的實驗室中,而現(xiàn)在,很多業(yè)界做的東西和想法已經(jīng)非常接近大學里研究的課題,這說明,學術界和業(yè)界正在加強合作,公司愿意和學術界的教授進行合作得到研究結果,而教授也能得到一些數(shù)據(jù)和支持,這是非常良性的循環(huán)。大家也可以看到很多教授變成公司管理者,這非常有意思,它可以讓前沿的想法能夠立刻在實際場景中得到應用。
二、金融和科技的融合,如果現(xiàn)在去任何的金融機構,都會有專門的金融科技部門;很多技術公司,也會有一個金融部門。在這之前,銀行家和工程師是兩個毫無交集的職業(yè),但在未來,這兩者將會有非常多的合作。
在商業(yè)智能的產(chǎn)生中,有一本著名的大數(shù)據(jù)的書,里面提到的兩個觀點:
第一個觀點是大數(shù)據(jù)4個V,但我不這么認為,因為你只有海量多樣的數(shù)據(jù)是毫無作用,最終需要從數(shù)據(jù)中產(chǎn)生一個價值,而價值才是數(shù)據(jù)的核心;
第二個觀點是當數(shù)據(jù)非常多的時候,我們就不需要研究因果關系了,因為我們有非常多的數(shù)據(jù),就可以直接用數(shù)據(jù)來說話。當然這個我也非常不同意,我待會會講。
大家有沒有想過,數(shù)據(jù)將怎么變成價值?數(shù)據(jù)首先要變成信息,信息變成知識,知識變成能力,能力變成策略,策略才能變成價值。這整個鏈條是非常重要且緊密的,每一步都不可或缺。另外,邏輯也非常重要。真正產(chǎn)生商業(yè)智能,不是說有了大數(shù)據(jù)就能夠立刻做出有價值的東西,在經(jīng)濟學中,我們更關心的是怎么解釋一件事情,一件事情發(fā)生底層的機理是什么。預測分類和運作機理如何能結合起來,可以做出很多有意思的東西。
比如說,什么情況下能夠做非常好的預測而做不了很好的解釋?地心說。太陽明天會升起,每天預測都是準的。但是地心說這個理論是錯的,我們現(xiàn)在知道地球圍繞太陽轉,這個理論用來預測是完全OK的,但是沒有解決底層的機理問題;反過來有沒有一個理論能夠做很好的解釋而做不了很好的預測呢?進化論。我們認為它能夠很好的解釋為什么有人,人為什么是從猿猴進化而來,但是它沒法做預測,你不知道明天人會變成什么樣。其實這兩個問題非常不同,人工智能專家可能更多做的是左上角的工作,經(jīng)濟學家專家做的是右下角的工作,問題是怎么把這兩個整合在一起。
現(xiàn)在說的Decision making還有很多不確定性。舉例說,太陽明天會升起,這個現(xiàn)象100%會實現(xiàn)。但下一個層面就有了一些風險,比如預測股市,我們都會有一個大概預測,可以說股市明天七成會漲、這就是所謂的Risk;或者說新研究一種新藥,70%的病人吃了會康復,30%的人吃了沒有效果,這都是Risk。其實現(xiàn)實生活有非常多的Risk是無法描述的,比如黑天鵝事件,有0.0001%的可能性明天股市會跌50%?;蛘哌@個藥吃了后有0.000001%的概率病人會掛掉。在這種情況下,即便有了大數(shù)據(jù)也無法做人工智能的推斷。
再往下是Ambiguity模糊性,模糊性是什么?我知道明天股市要不就會漲、要不就會跌,但是什么百分比說不出來。即便有世界上過去所有股市的數(shù)據(jù),仍然不知道明天會漲還是會跌,因為有很多因素會影響這個結果。在這種情況下,怎么樣用一種模型去描述這種現(xiàn)象成為很多金融專家正在做的事情。問題總共分為五個級別,第五級的問題是沒辦法解決的,第四級在經(jīng)濟學中可以試著解決。而大部分的問題都歸屬第二級。比如說預測圖片是貓還是狗,這個事沒有那么多黑天鵝事件;但當談到股票市場,可能就沒法在第二級解決。
舉個例子,這是美國股市在過去從1968年到2016年的波動率。這個波動率就是Risk,波動率講的就是股票市場有多大的風險。如果你用傳統(tǒng)的方法用所謂的標準差去描述,你能看到有幾個現(xiàn)象:第一個是1987年10月19日有一個非常高的Risk那是美國股災。再往后比較高的時候是2002年的時候,也是有非常強的波動性,這是當時互聯(lián)網(wǎng)泡沫破裂的時候。再往后有一個非常高,2007、2008年次貸危機的時候。傳統(tǒng)我們對股市風險的描述是根據(jù)風險的預測,而風險預測底層的假設是我們能夠寫出一個統(tǒng)計概率出來的。
但如果沒有這些,該怎么描述呢?最近我跟我的同事在做模糊性預測模型,具體模型我就不講了,但是結論是非常有意思的。大家可以對比這兩張圖,在排除了之前認為的風險之后,剩下的模糊性有多大。1987年股災殘存的模糊性也非常大,你把這些風險已經(jīng)考慮了之后,仍然有非常高的模糊性。但是2002年的時候,股市的波動其實在我們計算出來的模糊性上反映就不大,這表示什么呢?反過來我們再來解釋,1987年的股災是非常嚴重的,而2002年所謂的股災沒有那么嚴重,因為底層有技術的推動,其實從未來來看,中間的模糊性沒有太大。再看2007、2008年,比1987年的還是低很多。
這件事也就是說明,如果只是從數(shù)據(jù)出發(fā),沒法做出因果關系的,只做machine learning、data, 但是你還是沒法發(fā)現(xiàn)底層的機制的問題。經(jīng)濟學的insight就是希望把risk沒法解決的問題能夠用模糊性去描述。
下面我就講AI到底和經(jīng)濟學有什么關系。AI里面有一個非常大的問題是overfitting。當數(shù)據(jù)有限的時候做了無數(shù)次的訓練,得出的效果非常好,但是你的model不是一個真正的模型。圖片上一共有12個點,這12個點如果你用一個線性模型做,線性模型是直線。
如果做一個十二元方程也可以非常精準地把所有點都經(jīng)過。但是其實十二元方程效果不是很好,因為定一個中間點的時候,應該如何預測呢?如果是線性模型,表現(xiàn)會比十二元方程的模型表現(xiàn)好很多,是因為十二元方程做了overfitting,怎么樣避免overfitting 有很多辦法,那么有沒有一個辦法非常精確的告訴我,你的模型是對的。
現(xiàn)在很多model還沒有解決底層機制的問題,但從數(shù)據(jù)出發(fā)做預測,就類似于我們給 3歲小孩一把機關槍,有時候能打中、有時候打得挺好的,但是很多時候你會有很多錯誤,這個怎么避免?我們在做machine learning的時候,我們能不能用經(jīng)濟學的原理解決問題。
financial market是怎么運作的?投資人把錢投到一個公司,公司有相應回報,可能是業(yè)績回報或者分紅。中間我們需要媒體幫助投資人知道這個公司做得怎么樣,而這其中很多環(huán)節(jié)可以用人工智能的辦法去幫助我們增加它的有效性。
Media有兩種,第一種是傳統(tǒng)的媒體,第二種是所謂的社交媒體。傳統(tǒng)媒體包括剛才講的互聯(lián)網(wǎng)行業(yè)分析師、傳統(tǒng)的新聞媒體。社交媒體像雅虎、頭條、微博、微信、推特等等所有都是social的,其實這些媒體的影響也非常大。
投資人有兩種,一種是散戶,只是在股票市場做一些簡單投資,但是跟公司沒有任何關系,也對公司不了解的人。還有一種是機構投資者,另外則是公司內(nèi)部的高管,我們把他們合在一起叫做Insiders。這是我認為這個是最簡單的對于金融市場的描述,其實每個鏈接都是可以作為互聯(lián)網(wǎng)金融的idea來優(yōu)化的。
而這能夠回答什么問題?美國在2013年的時候,Associate Press賬號被黑,在推特上發(fā)了一個假信息,他說白宮有兩次爆炸,奧巴馬受傷。這件事說完之后3分鐘之內(nèi),美國股市的市值就蒸發(fā)了1千多億美金,如果你去要看它的基本面,不可能有1千億的變化,所以我們認為,這3分鐘之內(nèi)發(fā)生的事情,一定是跟推特相關的。
為什么呢?這里面能看到兩件事,第一件事是說Associate Press的社交媒體推特還是很有影響的, 它真的能夠對股票市場造成很大的影響,不管新聞是真的還是假的。第二,你能看到非常多機器做交易,如果是人我們會判斷一下,這個事是真的還是假的,奧巴馬是不是真的受傷了。但是機器不會,機器寫了一些固定的算法,它會認為奧巴馬受傷一定是壞事,所以它就開始做做交易賣出股票。這里面1千多億的市值蒸發(fā)很大部分是由于機器做交易造成的,所謂的量化的算法。
再比如維基百科,你能看到在發(fā)布年報前后的時間內(nèi),大家對Intel維基百科的頁面訪問翻倍,從2000多次變到4000多次,說明大家對社交媒體的關注度是非常高的。這個也是我們做研究發(fā)現(xiàn)有意思的事,發(fā)布年報的時候有兩種情況,第一是公司業(yè)績非常好,第二是沒有那么好。當你的業(yè)績不好的時候,就是一條藍線,和你業(yè)績好的時候比較,平均來講當年報業(yè)績不好的時候,公司不愿意發(fā)推特,他們發(fā)得比較少,但是可以看到離年報發(fā)布的前幾天的時候,突然一下子暴漲起來,這個時間差不多是4天。
這個分析我們得到一個什么結論呢?當業(yè)績好的時候,這些公司都在說同樣一件事,說我們的業(yè)績好,今年股票的回報大概是多少,我們花了多少錢,我們在明年有什么計劃,這些都是非常好的跟公司業(yè)績相關的推特。
這時候可以反推,當你還不知道具體情況時,你看到推特上的內(nèi)容就可以進行一些辨別。根據(jù)這個便可以做模型訓練,當你看到它的歷史曲線的時候,你發(fā)現(xiàn)突然有一家公司在年報發(fā)布附近的時候突然開始說一些莫名其妙的話,說明他今年的表現(xiàn)不一定很好。這是可以做成訓練模型去看的。
那么如何建立因果關系呢?經(jīng)濟學里有個方法叫工具變量,舉個例子說,假設我們想知道X是不是影響Y,比如說X你是否抽煙,Y是你有沒有肺癌。我們會搜Data,這個人抽煙有肺癌,那個人抽煙沒有肺癌,搜了一堆的數(shù)據(jù),得到的結論是說抽煙導致肺癌。但是這個是不是真的呢?不一定,因為還有可能是你看不到的一個現(xiàn)象, 這個現(xiàn)象導致你既抽煙又容易肺癌?;蛘哒f你看不到的U決定了這些人幾遍不抽煙也會得肺癌。比方說這是地域的原因,又比如說住在某個省的人更容易抽煙、更容易得肺癌,跟他抽不抽煙沒關系。也有可能是基因的問題,有的人是生下來就會得肺癌,抽不抽煙也會得肺癌,這些人碰巧另外一個基因決定他又容易抽煙。當你有這種現(xiàn)象的時候,你是沒法說抽煙是否能導致肺癌的。
怎么辦呢?我們就會找一個工具變量,我們希望它和抽不抽煙是相關的,但是跟看不到的現(xiàn)象基因、地域是沒關的。怎么找到這個東西呢?比如說最簡單的,國家現(xiàn)在要征收煙草稅,煙草稅是跟你抽不抽煙相關的,煙草稅一提上來,可能你抽煙就變少了。但是煙草稅跟你的地域是沒關的,因為這是國家政策,所有地域都會受影響,跟你的基因是沒關的。這個就叫工具變量,當你有這樣的一個體系之后,你就能分析出來X和Y的關系,因果關系就能出來。如果我們的machine learning你只關注在X到Y這條線上,有可能你最后的結論是錯的。即便發(fā)現(xiàn)一個正相關,得到的結論也是錯的。但是如果你知道怎么用工具變量做這件事的時候,你就解決了之間的因果關系。
大家經(jīng)常講Human in the loop,我覺得應該要有Econ in the loop的概念。 如果你用Econ in the loop的idea來做,用因果關系的分析能夠結合在machine learning的model里面,就可以做非常好的研究,得到很好的結果。謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章