0
本文作者: 張棟 | 編輯:溫曉樺 | 2017-07-11 11:59 | 專題:GAIR 2017 |
7月7日,由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)和香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會在深圳隆重開幕。會議第二天,香港科技大學(xué)資訊、商業(yè)統(tǒng)計及運營學(xué)系教授張曉泉(Professor Michael Zhang)帶來了題為《經(jīng)濟(jì)學(xué)家眼中的金融科技創(chuàng)新》的主題演講。
張曉泉,2006 年獲美國麻省理工學(xué)院(MIT Sloan School of Management)管理學(xué)博士學(xué)位,此前在清華大學(xué)獲得管理學(xué)碩士、工學(xué)學(xué)士和文學(xué)學(xué)士學(xué)位,他的研究領(lǐng)域主要包括營銷策略、大數(shù)據(jù)營銷、商業(yè)人工智能以及互聯(lián)網(wǎng)金融。學(xué)術(shù)論文曾發(fā)表在《美國經(jīng)濟(jì)評論》、《管理科學(xué)》等知名學(xué)術(shù)期刊。同時他也是招商證券、中國移動、華為等公司和機構(gòu)的顧問。是美國知名華人社區(qū) MITBBS 創(chuàng)始人,Information Systems Research (信息系統(tǒng)研究)的高級主編,同時還身兼招商證券、中國移動、華為、香港數(shù)碼港、阿里巴巴旗下湖畔大學(xué)等公司和機構(gòu)的高級顧問。
在本次演講中,張曉泉教授從AI 需要金融、金融與 AI 相互融合、決策問題等三個方向向與會觀眾介紹了AI在金融領(lǐng)域的創(chuàng)新與應(yīng)用。
他認(rèn)為,科技與金融其實并非魚與熊掌,自人工智能、大數(shù)據(jù)、機器學(xué)習(xí)興起以來,利用AI技術(shù)研究金融問題已屢見不鮮,AI 技術(shù)需要經(jīng)濟(jì)領(lǐng)域的研究方法和思路,經(jīng)濟(jì)學(xué)方法也可以助力 AI,應(yīng)用于研究大數(shù)據(jù)的產(chǎn)生、傳播和處理。雷鋒網(wǎng)亦認(rèn)為,隨著 AI 技術(shù)的不斷完善發(fā)展,金融和科技領(lǐng)域的相互融合已經(jīng)是大勢所趨。
在他看來,自古以來,金融市場真正在做的事就是讓資源更好地分配,如最早開始用紙幣,后來有信用卡,現(xiàn)在是區(qū)塊鏈的出現(xiàn),不同的技術(shù)雖然一直往前發(fā)展,但其實都是讓人類越來越有效的做資源分配。
另外,在商業(yè)智能方面,張曉泉教授總結(jié)了數(shù)據(jù)到價值的轉(zhuǎn)化鏈條:數(shù)據(jù)-信息-知識-能力-策略-價值。
他表示數(shù)據(jù)首先要變成信息,信息變成知識,知識變成能力,能力變成策略,策略變成價值,這個鏈條是非常重要的,每一步不可缺。數(shù)據(jù)首先通過場景變成信息,信息組織成體系后就變成知識,知識轉(zhuǎn)化成能力,各種能力綜合起來構(gòu)成策略,策略的執(zhí)行產(chǎn)生價值,這個邏輯非常清楚。真正產(chǎn)生商業(yè)智能,不是說我們有了大數(shù)據(jù)就可以了,也不是說我們有了海量數(shù)據(jù)就能夠立刻做出有價值的東西,其實整個鏈條是這樣的一個邏輯,缺一不可。
再者,他認(rèn)為,我們在工作生活中有很多的不確定性,這些不確定性可以有不同的統(tǒng)計學(xué)描述和意義:
第一個是 certainty,也就是 100% 會實現(xiàn)的。
下一個是 Risk 風(fēng)險,可以用隨機分布函數(shù)描述 。
下一個是 black swan,也就是小概率事件,雖然概率小,但會發(fā)生。
再下一個是 ambiguity 模糊性,“比如即便我有世界上過去所有股市的數(shù)據(jù),我仍然不知道明天會漲還是會跌,不知道都有什么樣的影響因素,如果不考慮這樣的模糊性而僅僅用概率分布來做預(yù)測,就會有非常大的偏差” 。
最后一個是 Radical Uncertainty,恐怖襲擊我們知道它會發(fā)生,但是不知道什么時候會發(fā)生、在哪里發(fā)生、怎么發(fā)生?!爱?dāng)你有這種 Radica Uncertainty 的時候,你是沒法描述這件事的,你沒法寫一個模型說怎么預(yù)測恐怖分子究竟會怎么樣去做”。
在這五個級別的問題中,第五級的問題是沒辦法解決的,第四級的問題我們有沒有辦法解決,目前正在研究。張曉泉教授覺得大部分的是在第二級層面上解決問題,他認(rèn)為世界上大多數(shù)問題也的確是第二級的?!氨热缯f我要預(yù)測這個圖片是貓還是狗,其實這個事沒有那么多黑天鵝事件,大部分問題可以在第二級能夠解決”。
但張曉泉教授同時表示:“有些問題,比如談到股票市場,可能你就沒法在第二級解決,你即便知道世界上所有信息,你無法預(yù)計明天股票的概率。這就超出了第二級別的范疇,這是學(xué)術(shù)界在努力的一個方向,未來會對整個行業(yè)有巨大的意義”。
以下是張曉泉教授的演講全文,雷鋒網(wǎng)作了不改變原意的編輯:
非常感謝。我今天主要講一下AI和經(jīng)濟(jì)學(xué)有什么關(guān)系。雖然隔行如隔山,但他山之石也可以攻玉。如果你了解經(jīng)濟(jì)學(xué)在做什么,AI將會變得非常有意思。
最近很多媒體都在傳播說AI要代替人類。這個事情在商學(xué)院也討論的非常多,未來社會將會變成什么樣?我們以后是不是就失去工作了?
有條新聞是說律師需要36萬小時的工作,被一個軟件可以在幾秒鐘之內(nèi)做掉;另外,包括說投資銀行的分析師馬上是夕陽行業(yè),四大會計事務(wù)所現(xiàn)在也開始做AI了。
還有新聞?wù)f很多年薪超過35萬美金的人很快要失業(yè)了,換算成人民幣大概是200萬元人民幣。所以如果在座的誰的年薪超過200萬就快要失業(yè)了。(觀眾笑)笑的人可能都是年薪不到200萬的,不過你失業(yè)的機會可能更快。
紐約大學(xué)金融系的系主任前段時間到科大做講座。他說,傳統(tǒng)的審計、律師、金融等行業(yè)在未來的5到10年內(nèi)都會受到非常大的影響。未來10年內(nèi),銀行和股市要不就關(guān)閉、要不就轉(zhuǎn)型;到了2030年,學(xué)校里的金融系和會計系都要關(guān)掉。他說的非??植溃绻?xì)想一下,如今科技的確對金融造成了不小的影響。
他認(rèn)為,在商學(xué)院里面唯一要教的一門課就叫Fintech。如果在谷歌上搜索,紅線是machine learning,藍(lán)線是fintech。這兩條線相關(guān)性很高,fintech底層是什么?應(yīng)該就是machine learning。在2006年以前,就有很多公司解決了支付等一系列問題,再往后,每年都有非常多的fintech公司出現(xiàn)。從這個過程中可以發(fā)現(xiàn),靠前的公司讓金融工作變得更加簡單,而后面的公司則是讓金融變得更加智能,越來越多的公司都準(zhǔn)備用人工智能來解決現(xiàn)存的問題。
到后來我們發(fā)現(xiàn),會計、認(rèn)證、傳統(tǒng)的銀行業(yè)務(wù)、信用、貸款、投資、保險等這些行業(yè)都沒有變,改變的是如何利用解決問題的方案,從而讓問題變得更加簡單、讓事情變得更加高效。
金融市場的核心問題是讓資源配置變得更加有效?,F(xiàn)在很多人認(rèn)為技術(shù)讓事情變得高效的同時,是否就改變了人的主導(dǎo)地位,或者根本就不需要人類了。這張圖是去年MIT Technology Review雜志封面圖,一開始人在用機器,但是后來機器變得越來越強大了,后來人只要修一下機器就好了,最后機器修機器,不需要人了。這個Jobless Society到底對我們的改變有多大,我一會兒會和Bill Roscoe教授有討論的環(huán)節(jié),我們到時候再討論這個問題。
但是我個人認(rèn)為,Jobless Society出現(xiàn)的幾率不大,過去100年間,有過很多類似的技術(shù)出現(xiàn),每次都有論調(diào)認(rèn)為人類無工作可做。其實不然,昨天汪軍博士引用了笛卡爾的一句話,他說機器是無法有意識的。其實畢加索也說了一句話,畢加索在大概100年前說,計算機是沒有用的,它只能給我們答案。我覺得這句話非常對,為什么呢?因為我們解決問題的前提是提出問題,而計算機是無法提出問題的。只要計算機一天無法自己提出問題,人類還是有辦法去做工作,去提出問題,讓計算機幫忙去解決。
我們現(xiàn)在能看到一些趨勢,這些趨勢加強了學(xué)術(shù)界和業(yè)界的緊密融合。舉例說:
一、做研究和應(yīng)用,在之前的五到十年,很多超前的研究只會出現(xiàn)在大學(xué)的實驗室中,而現(xiàn)在,很多業(yè)界做的東西和想法已經(jīng)非常接近大學(xué)里研究的課題,這說明,學(xué)術(shù)界和業(yè)界正在加強合作,公司愿意和學(xué)術(shù)界的教授進(jìn)行合作得到研究結(jié)果,而教授也能得到一些數(shù)據(jù)和支持,這是非常良性的循環(huán)。大家也可以看到很多教授變成公司管理者,這非常有意思,它可以讓前沿的想法能夠立刻在實際場景中得到應(yīng)用。
二、金融和科技的融合,如果現(xiàn)在去任何的金融機構(gòu),都會有專門的金融科技部門;很多技術(shù)公司,也會有一個金融部門。在這之前,銀行家和工程師是兩個毫無交集的職業(yè),但在未來,這兩者將會有非常多的合作。
在商業(yè)智能的產(chǎn)生中,有一本著名的大數(shù)據(jù)的書,里面提到的兩個觀點:
第一個觀點是大數(shù)據(jù)4個V,但我不這么認(rèn)為,因為你只有海量多樣的數(shù)據(jù)是毫無作用,最終需要從數(shù)據(jù)中產(chǎn)生一個價值,而價值才是數(shù)據(jù)的核心;
第二個觀點是當(dāng)數(shù)據(jù)非常多的時候,我們就不需要研究因果關(guān)系了,因為我們有非常多的數(shù)據(jù),就可以直接用數(shù)據(jù)來說話。當(dāng)然這個我也非常不同意,我待會會講。
大家有沒有想過,數(shù)據(jù)將怎么變成價值?數(shù)據(jù)首先要變成信息,信息變成知識,知識變成能力,能力變成策略,策略才能變成價值。這整個鏈條是非常重要且緊密的,每一步都不可或缺。另外,邏輯也非常重要。真正產(chǎn)生商業(yè)智能,不是說有了大數(shù)據(jù)就能夠立刻做出有價值的東西,在經(jīng)濟(jì)學(xué)中,我們更關(guān)心的是怎么解釋一件事情,一件事情發(fā)生底層的機理是什么。預(yù)測分類和運作機理如何能結(jié)合起來,可以做出很多有意思的東西。
比如說,什么情況下能夠做非常好的預(yù)測而做不了很好的解釋?地心說。太陽明天會升起,每天預(yù)測都是準(zhǔn)的。但是地心說這個理論是錯的,我們現(xiàn)在知道地球圍繞太陽轉(zhuǎn),這個理論用來預(yù)測是完全OK的,但是沒有解決底層的機理問題;反過來有沒有一個理論能夠做很好的解釋而做不了很好的預(yù)測呢?進(jìn)化論。我們認(rèn)為它能夠很好的解釋為什么有人,人為什么是從猿猴進(jìn)化而來,但是它沒法做預(yù)測,你不知道明天人會變成什么樣。其實這兩個問題非常不同,人工智能專家可能更多做的是左上角的工作,經(jīng)濟(jì)學(xué)家專家做的是右下角的工作,問題是怎么把這兩個整合在一起。
現(xiàn)在說的Decision making還有很多不確定性。舉例說,太陽明天會升起,這個現(xiàn)象100%會實現(xiàn)。但下一個層面就有了一些風(fēng)險,比如預(yù)測股市,我們都會有一個大概預(yù)測,可以說股市明天七成會漲、這就是所謂的Risk;或者說新研究一種新藥,70%的病人吃了會康復(fù),30%的人吃了沒有效果,這都是Risk。其實現(xiàn)實生活有非常多的Risk是無法描述的,比如黑天鵝事件,有0.0001%的可能性明天股市會跌50%?;蛘哌@個藥吃了后有0.000001%的概率病人會掛掉。在這種情況下,即便有了大數(shù)據(jù)也無法做人工智能的推斷。
再往下是Ambiguity模糊性,模糊性是什么?我知道明天股市要不就會漲、要不就會跌,但是什么百分比說不出來。即便有世界上過去所有股市的數(shù)據(jù),仍然不知道明天會漲還是會跌,因為有很多因素會影響這個結(jié)果。在這種情況下,怎么樣用一種模型去描述這種現(xiàn)象成為很多金融專家正在做的事情。問題總共分為五個級別,第五級的問題是沒辦法解決的,第四級在經(jīng)濟(jì)學(xué)中可以試著解決。而大部分的問題都?xì)w屬第二級。比如說預(yù)測圖片是貓還是狗,這個事沒有那么多黑天鵝事件;但當(dāng)談到股票市場,可能就沒法在第二級解決。
舉個例子,這是美國股市在過去從1968年到2016年的波動率。這個波動率就是Risk,波動率講的就是股票市場有多大的風(fēng)險。如果你用傳統(tǒng)的方法用所謂的標(biāo)準(zhǔn)差去描述,你能看到有幾個現(xiàn)象:第一個是1987年10月19日有一個非常高的Risk那是美國股災(zāi)。再往后比較高的時候是2002年的時候,也是有非常強的波動性,這是當(dāng)時互聯(lián)網(wǎng)泡沫破裂的時候。再往后有一個非常高,2007、2008年次貸危機的時候。傳統(tǒng)我們對股市風(fēng)險的描述是根據(jù)風(fēng)險的預(yù)測,而風(fēng)險預(yù)測底層的假設(shè)是我們能夠?qū)懗鲆粋€統(tǒng)計概率出來的。
但如果沒有這些,該怎么描述呢?最近我跟我的同事在做模糊性預(yù)測模型,具體模型我就不講了,但是結(jié)論是非常有意思的。大家可以對比這兩張圖,在排除了之前認(rèn)為的風(fēng)險之后,剩下的模糊性有多大。1987年股災(zāi)殘存的模糊性也非常大,你把這些風(fēng)險已經(jīng)考慮了之后,仍然有非常高的模糊性。但是2002年的時候,股市的波動其實在我們計算出來的模糊性上反映就不大,這表示什么呢?反過來我們再來解釋,1987年的股災(zāi)是非常嚴(yán)重的,而2002年所謂的股災(zāi)沒有那么嚴(yán)重,因為底層有技術(shù)的推動,其實從未來來看,中間的模糊性沒有太大。再看2007、2008年,比1987年的還是低很多。
這件事也就是說明,如果只是從數(shù)據(jù)出發(fā),沒法做出因果關(guān)系的,只做machine learning、data, 但是你還是沒法發(fā)現(xiàn)底層的機制的問題。經(jīng)濟(jì)學(xué)的insight就是希望把risk沒法解決的問題能夠用模糊性去描述。
下面我就講AI到底和經(jīng)濟(jì)學(xué)有什么關(guān)系。AI里面有一個非常大的問題是overfitting。當(dāng)數(shù)據(jù)有限的時候做了無數(shù)次的訓(xùn)練,得出的效果非常好,但是你的model不是一個真正的模型。圖片上一共有12個點,這12個點如果你用一個線性模型做,線性模型是直線。
如果做一個十二元方程也可以非常精準(zhǔn)地把所有點都經(jīng)過。但是其實十二元方程效果不是很好,因為定一個中間點的時候,應(yīng)該如何預(yù)測呢?如果是線性模型,表現(xiàn)會比十二元方程的模型表現(xiàn)好很多,是因為十二元方程做了overfitting,怎么樣避免overfitting 有很多辦法,那么有沒有一個辦法非常精確的告訴我,你的模型是對的。
現(xiàn)在很多model還沒有解決底層機制的問題,但從數(shù)據(jù)出發(fā)做預(yù)測,就類似于我們給 3歲小孩一把機關(guān)槍,有時候能打中、有時候打得挺好的,但是很多時候你會有很多錯誤,這個怎么避免?我們在做machine learning的時候,我們能不能用經(jīng)濟(jì)學(xué)的原理解決問題。
financial market是怎么運作的?投資人把錢投到一個公司,公司有相應(yīng)回報,可能是業(yè)績回報或者分紅。中間我們需要媒體幫助投資人知道這個公司做得怎么樣,而這其中很多環(huán)節(jié)可以用人工智能的辦法去幫助我們增加它的有效性。
Media有兩種,第一種是傳統(tǒng)的媒體,第二種是所謂的社交媒體。傳統(tǒng)媒體包括剛才講的互聯(lián)網(wǎng)行業(yè)分析師、傳統(tǒng)的新聞媒體。社交媒體像雅虎、頭條、微博、微信、推特等等所有都是social的,其實這些媒體的影響也非常大。
投資人有兩種,一種是散戶,只是在股票市場做一些簡單投資,但是跟公司沒有任何關(guān)系,也對公司不了解的人。還有一種是機構(gòu)投資者,另外則是公司內(nèi)部的高管,我們把他們合在一起叫做Insiders。這是我認(rèn)為這個是最簡單的對于金融市場的描述,其實每個鏈接都是可以作為互聯(lián)網(wǎng)金融的idea來優(yōu)化的。
而這能夠回答什么問題?美國在2013年的時候,Associate Press賬號被黑,在推特上發(fā)了一個假信息,他說白宮有兩次爆炸,奧巴馬受傷。這件事說完之后3分鐘之內(nèi),美國股市的市值就蒸發(fā)了1千多億美金,如果你去要看它的基本面,不可能有1千億的變化,所以我們認(rèn)為,這3分鐘之內(nèi)發(fā)生的事情,一定是跟推特相關(guān)的。
為什么呢?這里面能看到兩件事,第一件事是說Associate Press的社交媒體推特還是很有影響的, 它真的能夠?qū)善笔袌鲈斐珊艽蟮挠绊?,不管新聞是真的還是假的。第二,你能看到非常多機器做交易,如果是人我們會判斷一下,這個事是真的還是假的,奧巴馬是不是真的受傷了。但是機器不會,機器寫了一些固定的算法,它會認(rèn)為奧巴馬受傷一定是壞事,所以它就開始做做交易賣出股票。這里面1千多億的市值蒸發(fā)很大部分是由于機器做交易造成的,所謂的量化的算法。
再比如維基百科,你能看到在發(fā)布年報前后的時間內(nèi),大家對Intel維基百科的頁面訪問翻倍,從2000多次變到4000多次,說明大家對社交媒體的關(guān)注度是非常高的。這個也是我們做研究發(fā)現(xiàn)有意思的事,發(fā)布年報的時候有兩種情況,第一是公司業(yè)績非常好,第二是沒有那么好。當(dāng)你的業(yè)績不好的時候,就是一條藍(lán)線,和你業(yè)績好的時候比較,平均來講當(dāng)年報業(yè)績不好的時候,公司不愿意發(fā)推特,他們發(fā)得比較少,但是可以看到離年報發(fā)布的前幾天的時候,突然一下子暴漲起來,這個時間差不多是4天。
這個分析我們得到一個什么結(jié)論呢?當(dāng)業(yè)績好的時候,這些公司都在說同樣一件事,說我們的業(yè)績好,今年股票的回報大概是多少,我們花了多少錢,我們在明年有什么計劃,這些都是非常好的跟公司業(yè)績相關(guān)的推特。
這時候可以反推,當(dāng)你還不知道具體情況時,你看到推特上的內(nèi)容就可以進(jìn)行一些辨別。根據(jù)這個便可以做模型訓(xùn)練,當(dāng)你看到它的歷史曲線的時候,你發(fā)現(xiàn)突然有一家公司在年報發(fā)布附近的時候突然開始說一些莫名其妙的話,說明他今年的表現(xiàn)不一定很好。這是可以做成訓(xùn)練模型去看的。
那么如何建立因果關(guān)系呢?經(jīng)濟(jì)學(xué)里有個方法叫工具變量,舉個例子說,假設(shè)我們想知道X是不是影響Y,比如說X你是否抽煙,Y是你有沒有肺癌。我們會搜Data,這個人抽煙有肺癌,那個人抽煙沒有肺癌,搜了一堆的數(shù)據(jù),得到的結(jié)論是說抽煙導(dǎo)致肺癌。但是這個是不是真的呢?不一定,因為還有可能是你看不到的一個現(xiàn)象, 這個現(xiàn)象導(dǎo)致你既抽煙又容易肺癌?;蛘哒f你看不到的U決定了這些人幾遍不抽煙也會得肺癌。比方說這是地域的原因,又比如說住在某個省的人更容易抽煙、更容易得肺癌,跟他抽不抽煙沒關(guān)系。也有可能是基因的問題,有的人是生下來就會得肺癌,抽不抽煙也會得肺癌,這些人碰巧另外一個基因決定他又容易抽煙。當(dāng)你有這種現(xiàn)象的時候,你是沒法說抽煙是否能導(dǎo)致肺癌的。
怎么辦呢?我們就會找一個工具變量,我們希望它和抽不抽煙是相關(guān)的,但是跟看不到的現(xiàn)象基因、地域是沒關(guān)的。怎么找到這個東西呢?比如說最簡單的,國家現(xiàn)在要征收煙草稅,煙草稅是跟你抽不抽煙相關(guān)的,煙草稅一提上來,可能你抽煙就變少了。但是煙草稅跟你的地域是沒關(guān)的,因為這是國家政策,所有地域都會受影響,跟你的基因是沒關(guān)的。這個就叫工具變量,當(dāng)你有這樣的一個體系之后,你就能分析出來X和Y的關(guān)系,因果關(guān)系就能出來。如果我們的machine learning你只關(guān)注在X到Y(jié)這條線上,有可能你最后的結(jié)論是錯的。即便發(fā)現(xiàn)一個正相關(guān),得到的結(jié)論也是錯的。但是如果你知道怎么用工具變量做這件事的時候,你就解決了之間的因果關(guān)系。
大家經(jīng)常講Human in the loop,我覺得應(yīng)該要有Econ in the loop的概念。 如果你用Econ in the loop的idea來做,用因果關(guān)系的分析能夠結(jié)合在machine learning的model里面,就可以做非常好的研究,得到很好的結(jié)果。謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章