港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

本文作者：張棟

編輯：溫曉樺

2017-07-11 11:59

專題：GAIR 2017

導(dǎo)語：AI 技術(shù)需要經(jīng)濟(jì)領(lǐng)域的研究方法和思路，經(jīng)濟(jì)學(xué)方法也可以助力 AI，應(yīng)用于研究大數(shù)據(jù)的產(chǎn)生、傳播和處理。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

7月7日，由中國計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)和香港中文大學(xué)（深圳）承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)在深圳隆重開幕。會(huì)議第二天，香港科技大學(xué)資訊、商業(yè)統(tǒng)計(jì)及運(yùn)營學(xué)系教授張曉泉（Professor Michael Zhang）帶來了題為《經(jīng)濟(jì)學(xué)家眼中的金融科技創(chuàng)新》的主題演講。

嘉賓介紹

張曉泉，2006 年獲美國麻省理工學(xué)院（MIT Sloan School of Management）管理學(xué)博士學(xué)位，此前在清華大學(xué)獲得管理學(xué)碩士、工學(xué)學(xué)士和文學(xué)學(xué)士學(xué)位，他的研究領(lǐng)域主要包括營銷策略、大數(shù)據(jù)營銷、商業(yè)人工智能以及互聯(lián)網(wǎng)金融。學(xué)術(shù)論文曾發(fā)表在《美國經(jīng)濟(jì)評(píng)論》、《管理科學(xué)》等知名學(xué)術(shù)期刊。同時(shí)他也是招商證券、中國移動(dòng)、華為等公司和機(jī)構(gòu)的顧問。是美國知名華人社區(qū) MITBBS 創(chuàng)始人，Information Systems Research (信息系統(tǒng)研究)的高級(jí)主編，同時(shí)還身兼招商證券、中國移動(dòng)、華為、香港數(shù)碼港、阿里巴巴旗下湖畔大學(xué)等公司和機(jī)構(gòu)的高級(jí)顧問。

在本次演講中，張曉泉教授從AI 需要金融、金融與 AI 相互融合、決策問題等三個(gè)方向向與會(huì)觀眾介紹了AI在金融領(lǐng)域的創(chuàng)新與應(yīng)用。

他認(rèn)為，科技與金融其實(shí)并非魚與熊掌，自人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)興起以來，利用AI技術(shù)研究金融問題已屢見不鮮，AI 技術(shù)需要經(jīng)濟(jì)領(lǐng)域的研究方法和思路，經(jīng)濟(jì)學(xué)方法也可以助力 AI，應(yīng)用于研究大數(shù)據(jù)的產(chǎn)生、傳播和處理。雷鋒網(wǎng)亦認(rèn)為，隨著 AI 技術(shù)的不斷完善發(fā)展，金融和科技領(lǐng)域的相互融合已經(jīng)是大勢所趨。

在他看來，自古以來，金融市場真正在做的事就是讓資源更好地分配，如最早開始用紙幣，后來有信用卡，現(xiàn)在是區(qū)塊鏈的出現(xiàn)，不同的技術(shù)雖然一直往前發(fā)展，但其實(shí)都是讓人類越來越有效的做資源分配。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

另外，在商業(yè)智能方面，張曉泉教授總結(jié)了數(shù)據(jù)到價(jià)值的轉(zhuǎn)化鏈條：數(shù)據(jù)-信息-知識(shí)-能力-策略-價(jià)值。

他表示數(shù)據(jù)首先要變成信息，信息變成知識(shí)，知識(shí)變成能力，能力變成策略，策略變成價(jià)值，這個(gè)鏈條是非常重要的，每一步不可缺。數(shù)據(jù)首先通過場景變成信息，信息組織成體系后就變成知識(shí)，知識(shí)轉(zhuǎn)化成能力，各種能力綜合起來構(gòu)成策略，策略的執(zhí)行產(chǎn)生價(jià)值，這個(gè)邏輯非常清楚。真正產(chǎn)生商業(yè)智能，不是說我們有了大數(shù)據(jù)就可以了，也不是說我們有了海量數(shù)據(jù)就能夠立刻做出有價(jià)值的東西，其實(shí)整個(gè)鏈條是這樣的一個(gè)邏輯，缺一不可。

再者，他認(rèn)為，我們在工作生活中有很多的不確定性，這些不確定性可以有不同的統(tǒng)計(jì)學(xué)描述和意義：

第一個(gè)是 certainty，也就是 100% 會(huì)實(shí)現(xiàn)的。
下一個(gè)是 Risk 風(fēng)險(xiǎn)，可以用隨機(jī)分布函數(shù)描述。
下一個(gè)是 black swan，也就是小概率事件，雖然概率小，但會(huì)發(fā)生。
再下一個(gè)是 ambiguity 模糊性，“比如即便我有世界上過去所有股市的數(shù)據(jù)，我仍然不知道明天會(huì)漲還是會(huì)跌，不知道都有什么樣的影響因素，如果不考慮這樣的模糊性而僅僅用概率分布來做預(yù)測，就會(huì)有非常大的偏差” 。
最后一個(gè)是 Radical Uncertainty，恐怖襲擊我們知道它會(huì)發(fā)生，但是不知道什么時(shí)候會(huì)發(fā)生、在哪里發(fā)生、怎么發(fā)生。“當(dāng)你有這種 Radica Uncertainty 的時(shí)候，你是沒法描述這件事的，你沒法寫一個(gè)模型說怎么預(yù)測恐怖分子究竟會(huì)怎么樣去做”。

在這五個(gè)級(jí)別的問題中，第五級(jí)的問題是沒辦法解決的，第四級(jí)的問題我們有沒有辦法解決，目前正在研究。張曉泉教授覺得大部分的是在第二級(jí)層面上解決問題，他認(rèn)為世界上大多數(shù)問題也的確是第二級(jí)的?！氨热缯f我要預(yù)測這個(gè)圖片是貓還是狗，其實(shí)這個(gè)事沒有那么多黑天鵝事件，大部分問題可以在第二級(jí)能夠解決”。

但張曉泉教授同時(shí)表示：“有些問題，比如談到股票市場，可能你就沒法在第二級(jí)解決，你即便知道世界上所有信息，你無法預(yù)計(jì)明天股票的概率。這就超出了第二級(jí)別的范疇，這是學(xué)術(shù)界在努力的一個(gè)方向，未來會(huì)對(duì)整個(gè)行業(yè)有巨大的意義”。

以下是張曉泉教授的演講全文，雷鋒網(wǎng)作了不改變原意的編輯：

金融市場怎么能夠通過AI的影響而變得更有效？

非常感謝。我今天主要講一下AI和經(jīng)濟(jì)學(xué)有什么關(guān)系。雖然隔行如隔山，但他山之石也可以攻玉。如果你了解經(jīng)濟(jì)學(xué)在做什么，AI將會(huì)變得非常有意思。

AI來襲，金融市場出路在哪里？

最近很多媒體都在傳播說AI要代替人類。這個(gè)事情在商學(xué)院也討論的非常多，未來社會(huì)將會(huì)變成什么樣？我們以后是不是就失去工作了？

有條新聞是說律師需要36萬小時(shí)的工作，被一個(gè)軟件可以在幾秒鐘之內(nèi)做掉；另外，包括說投資銀行的分析師馬上是夕陽行業(yè)，四大會(huì)計(jì)事務(wù)所現(xiàn)在也開始做AI了。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

還有新聞?wù)f很多年薪超過35萬美金的人很快要失業(yè)了，換算成人民幣大概是200萬元人民幣。所以如果在座的誰的年薪超過200萬就快要失業(yè)了。（觀眾笑）笑的人可能都是年薪不到200萬的，不過你失業(yè)的機(jī)會(huì)可能更快。

紐約大學(xué)金融系的系主任前段時(shí)間到科大做講座。他說，傳統(tǒng)的審計(jì)、律師、金融等行業(yè)在未來的5到10年內(nèi)都會(huì)受到非常大的影響。未來10年內(nèi)，銀行和股市要不就關(guān)閉、要不就轉(zhuǎn)型；到了2030年，學(xué)校里的金融系和會(huì)計(jì)系都要關(guān)掉。他說的非?？植?，但如果細(xì)想一下，如今科技的確對(duì)金融造成了不小的影響。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

他認(rèn)為，在商學(xué)院里面唯一要教的一門課就叫Fintech。如果在谷歌上搜索，紅線是machine learning，藍(lán)線是fintech。這兩條線相關(guān)性很高，fintech底層是什么？應(yīng)該就是machine learning。在2006年以前，就有很多公司解決了支付等一系列問題，再往后，每年都有非常多的fintech公司出現(xiàn)。從這個(gè)過程中可以發(fā)現(xiàn)，靠前的公司讓金融工作變得更加簡單，而后面的公司則是讓金融變得更加智能，越來越多的公司都準(zhǔn)備用人工智能來解決現(xiàn)存的問題。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

到后來我們發(fā)現(xiàn)，會(huì)計(jì)、認(rèn)證、傳統(tǒng)的銀行業(yè)務(wù)、信用、貸款、投資、保險(xiǎn)等這些行業(yè)都沒有變，改變的是如何利用解決問題的方案，從而讓問題變得更加簡單、讓事情變得更加高效。

金融市場的核心問題是讓資源配置變得更加有效?，F(xiàn)在很多人認(rèn)為技術(shù)讓事情變得高效的同時(shí)，是否就改變了人的主導(dǎo)地位，或者根本就不需要人類了。這張圖是去年MIT Technology Review雜志封面圖，一開始人在用機(jī)器，但是后來機(jī)器變得越來越強(qiáng)大了，后來人只要修一下機(jī)器就好了，最后機(jī)器修機(jī)器，不需要人了。這個(gè)Jobless Society到底對(duì)我們的改變有多大，我一會(huì)兒會(huì)和Bill Roscoe教授有討論的環(huán)節(jié)，我們到時(shí)候再討論這個(gè)問題。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

但是我個(gè)人認(rèn)為，Jobless Society出現(xiàn)的幾率不大，過去100年間，有過很多類似的技術(shù)出現(xiàn)，每次都有論調(diào)認(rèn)為人類無工作可做。其實(shí)不然，昨天汪軍博士引用了笛卡爾的一句話，他說機(jī)器是無法有意識(shí)的。其實(shí)畢加索也說了一句話，畢加索在大概100年前說，計(jì)算機(jī)是沒有用的，它只能給我們答案。我覺得這句話非常對(duì)，為什么呢？因?yàn)槲覀兘鉀Q問題的前提是提出問題，而計(jì)算機(jī)是無法提出問題的。只要計(jì)算機(jī)一天無法自己提出問題，人類還是有辦法去做工作，去提出問題，讓計(jì)算機(jī)幫忙去解決。

我們現(xiàn)在能看到一些趨勢，這些趨勢加強(qiáng)了學(xué)術(shù)界和業(yè)界的緊密融合。舉例說：

一、做研究和應(yīng)用，在之前的五到十年，很多超前的研究只會(huì)出現(xiàn)在大學(xué)的實(shí)驗(yàn)室中，而現(xiàn)在，很多業(yè)界做的東西和想法已經(jīng)非常接近大學(xué)里研究的課題，這說明，學(xué)術(shù)界和業(yè)界正在加強(qiáng)合作，公司愿意和學(xué)術(shù)界的教授進(jìn)行合作得到研究結(jié)果，而教授也能得到一些數(shù)據(jù)和支持，這是非常良性的循環(huán)。大家也可以看到很多教授變成公司管理者，這非常有意思，它可以讓前沿的想法能夠立刻在實(shí)際場景中得到應(yīng)用。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

二、金融和科技的融合，如果現(xiàn)在去任何的金融機(jī)構(gòu)，都會(huì)有專門的金融科技部門；很多技術(shù)公司，也會(huì)有一個(gè)金融部門。在這之前，銀行家和工程師是兩個(gè)毫無交集的職業(yè)，但在未來，這兩者將會(huì)有非常多的合作。

面對(duì)人工智能的能力界限，經(jīng)濟(jì)學(xué)可以如何助力？

在商業(yè)智能的產(chǎn)生中，有一本著名的大數(shù)據(jù)的書，里面提到的兩個(gè)觀點(diǎn)：

第一個(gè)觀點(diǎn)是大數(shù)據(jù)4個(gè)V，但我不這么認(rèn)為，因?yàn)槟阒挥泻Ａ慷鄻拥臄?shù)據(jù)是毫無作用，最終需要從數(shù)據(jù)中產(chǎn)生一個(gè)價(jià)值，而價(jià)值才是數(shù)據(jù)的核心；
第二個(gè)觀點(diǎn)是當(dāng)數(shù)據(jù)非常多的時(shí)候，我們就不需要研究因果關(guān)系了，因?yàn)槲覀冇蟹浅６嗟臄?shù)據(jù)，就可以直接用數(shù)據(jù)來說話。當(dāng)然這個(gè)我也非常不同意，我待會(huì)會(huì)講。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

數(shù)據(jù)將怎么變成價(jià)值？

大家有沒有想過，數(shù)據(jù)將怎么變成價(jià)值？數(shù)據(jù)首先要變成信息，信息變成知識(shí)，知識(shí)變成能力，能力變成策略，策略才能變成價(jià)值。這整個(gè)鏈條是非常重要且緊密的，每一步都不可或缺。另外，邏輯也非常重要。真正產(chǎn)生商業(yè)智能，不是說有了大數(shù)據(jù)就能夠立刻做出有價(jià)值的東西，在經(jīng)濟(jì)學(xué)中，我們更關(guān)心的是怎么解釋一件事情，一件事情發(fā)生底層的機(jī)理是什么。預(yù)測分類和運(yùn)作機(jī)理如何能結(jié)合起來，可以做出很多有意思的東西。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

比如說，什么情況下能夠做非常好的預(yù)測而做不了很好的解釋？地心說。太陽明天會(huì)升起，每天預(yù)測都是準(zhǔn)的。但是地心說這個(gè)理論是錯(cuò)的，我們現(xiàn)在知道地球圍繞太陽轉(zhuǎn)，這個(gè)理論用來預(yù)測是完全OK的，但是沒有解決底層的機(jī)理問題；反過來有沒有一個(gè)理論能夠做很好的解釋而做不了很好的預(yù)測呢？進(jìn)化論。我們認(rèn)為它能夠很好的解釋為什么有人，人為什么是從猿猴進(jìn)化而來，但是它沒法做預(yù)測，你不知道明天人會(huì)變成什么樣。其實(shí)這兩個(gè)問題非常不同，人工智能專家可能更多做的是左上角的工作，經(jīng)濟(jì)學(xué)家專家做的是右下角的工作，問題是怎么把這兩個(gè)整合在一起。

現(xiàn)在說的Decision making還有很多不確定性。舉例說，太陽明天會(huì)升起，這個(gè)現(xiàn)象100%會(huì)實(shí)現(xiàn)。但下一個(gè)層面就有了一些風(fēng)險(xiǎn)，比如預(yù)測股市，我們都會(huì)有一個(gè)大概預(yù)測，可以說股市明天七成會(huì)漲、這就是所謂的Risk；或者說新研究一種新藥，70%的病人吃了會(huì)康復(fù)，30%的人吃了沒有效果，這都是Risk。其實(shí)現(xiàn)實(shí)生活有非常多的Risk是無法描述的，比如黑天鵝事件，有0.0001%的可能性明天股市會(huì)跌50%?；蛘哌@個(gè)藥吃了后有0.000001%的概率病人會(huì)掛掉。在這種情況下，即便有了大數(shù)據(jù)也無法做人工智能的推斷。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

再往下是Ambiguity模糊性，模糊性是什么？我知道明天股市要不就會(huì)漲、要不就會(huì)跌，但是什么百分比說不出來。即便有世界上過去所有股市的數(shù)據(jù)，仍然不知道明天會(huì)漲還是會(huì)跌，因?yàn)橛泻芏嘁蛩貢?huì)影響這個(gè)結(jié)果。在這種情況下，怎么樣用一種模型去描述這種現(xiàn)象成為很多金融專家正在做的事情。問題總共分為五個(gè)級(jí)別，第五級(jí)的問題是沒辦法解決的，第四級(jí)在經(jīng)濟(jì)學(xué)中可以試著解決。而大部分的問題都?xì)w屬第二級(jí)。比如說預(yù)測圖片是貓還是狗，這個(gè)事沒有那么多黑天鵝事件；但當(dāng)談到股票市場，可能就沒法在第二級(jí)解決。

舉個(gè)例子，這是美國股市在過去從1968年到2016年的波動(dòng)率。這個(gè)波動(dòng)率就是Risk，波動(dòng)率講的就是股票市場有多大的風(fēng)險(xiǎn)。如果你用傳統(tǒng)的方法用所謂的標(biāo)準(zhǔn)差去描述，你能看到有幾個(gè)現(xiàn)象：第一個(gè)是1987年10月19日有一個(gè)非常高的Risk那是美國股災(zāi)。再往后比較高的時(shí)候是2002年的時(shí)候，也是有非常強(qiáng)的波動(dòng)性，這是當(dāng)時(shí)互聯(lián)網(wǎng)泡沫破裂的時(shí)候。再往后有一個(gè)非常高，2007、2008年次貸危機(jī)的時(shí)候。傳統(tǒng)我們對(duì)股市風(fēng)險(xiǎn)的描述是根據(jù)風(fēng)險(xiǎn)的預(yù)測，而風(fēng)險(xiǎn)預(yù)測底層的假設(shè)是我們能夠?qū)懗鲆粋€(gè)統(tǒng)計(jì)概率出來的。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

但如果沒有這些，該怎么描述呢？最近我跟我的同事在做模糊性預(yù)測模型，具體模型我就不講了，但是結(jié)論是非常有意思的。大家可以對(duì)比這兩張圖，在排除了之前認(rèn)為的風(fēng)險(xiǎn)之后，剩下的模糊性有多大。1987年股災(zāi)殘存的模糊性也非常大，你把這些風(fēng)險(xiǎn)已經(jīng)考慮了之后，仍然有非常高的模糊性。但是2002年的時(shí)候，股市的波動(dòng)其實(shí)在我們計(jì)算出來的模糊性上反映就不大，這表示什么呢？反過來我們再來解釋，1987年的股災(zāi)是非常嚴(yán)重的，而2002年所謂的股災(zāi)沒有那么嚴(yán)重，因?yàn)榈讓佑屑夹g(shù)的推動(dòng)，其實(shí)從未來來看，中間的模糊性沒有太大。再看2007、2008年，比1987年的還是低很多。

這件事也就是說明，如果只是從數(shù)據(jù)出發(fā)，沒法做出因果關(guān)系的，只做machine learning、data，但是你還是沒法發(fā)現(xiàn)底層的機(jī)制的問題。經(jīng)濟(jì)學(xué)的insight就是希望把risk沒法解決的問題能夠用模糊性去描述。

好好算數(shù)：經(jīng)濟(jì)學(xué)助力AI金融應(yīng)用的原理

下面我就講AI到底和經(jīng)濟(jì)學(xué)有什么關(guān)系。AI里面有一個(gè)非常大的問題是overfitting。當(dāng)數(shù)據(jù)有限的時(shí)候做了無數(shù)次的訓(xùn)練，得出的效果非常好，但是你的model不是一個(gè)真正的模型。圖片上一共有12個(gè)點(diǎn)，這12個(gè)點(diǎn)如果你用一個(gè)線性模型做，線性模型是直線。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

如果做一個(gè)十二元方程也可以非常精準(zhǔn)地把所有點(diǎn)都經(jīng)過。但是其實(shí)十二元方程效果不是很好，因?yàn)槎ㄒ粋€(gè)中間點(diǎn)的時(shí)候，應(yīng)該如何預(yù)測呢？如果是線性模型，表現(xiàn)會(huì)比十二元方程的模型表現(xiàn)好很多，是因?yàn)槭匠套隽薿verfitting，怎么樣避免overfitting 有很多辦法，那么有沒有一個(gè)辦法非常精確的告訴我，你的模型是對(duì)的。

現(xiàn)在很多model還沒有解決底層機(jī)制的問題，但從數(shù)據(jù)出發(fā)做預(yù)測，就類似于我們給 3歲小孩一把機(jī)關(guān)槍，有時(shí)候能打中、有時(shí)候打得挺好的，但是很多時(shí)候你會(huì)有很多錯(cuò)誤，這個(gè)怎么避免？我們在做machine learning的時(shí)候，我們能不能用經(jīng)濟(jì)學(xué)的原理解決問題。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

financial market是怎么運(yùn)作的？投資人把錢投到一個(gè)公司，公司有相應(yīng)回報(bào)，可能是業(yè)績回報(bào)或者分紅。中間我們需要媒體幫助投資人知道這個(gè)公司做得怎么樣，而這其中很多環(huán)節(jié)可以用人工智能的辦法去幫助我們增加它的有效性。

Media有兩種，第一種是傳統(tǒng)的媒體，第二種是所謂的社交媒體。傳統(tǒng)媒體包括剛才講的互聯(lián)網(wǎng)行業(yè)分析師、傳統(tǒng)的新聞媒體。社交媒體像雅虎、頭條、微博、微信、推特等等所有都是social的，其實(shí)這些媒體的影響也非常大。

投資人有兩種，一種是散戶，只是在股票市場做一些簡單投資，但是跟公司沒有任何關(guān)系，也對(duì)公司不了解的人。還有一種是機(jī)構(gòu)投資者，另外則是公司內(nèi)部的高管，我們把他們合在一起叫做Insiders。這是我認(rèn)為這個(gè)是最簡單的對(duì)于金融市場的描述，其實(shí)每個(gè)鏈接都是可以作為互聯(lián)網(wǎng)金融的idea來優(yōu)化的。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

而這能夠回答什么問題？美國在2013年的時(shí)候，Associate Press賬號(hào)被黑，在推特上發(fā)了一個(gè)假信息，他說白宮有兩次爆炸，奧巴馬受傷。這件事說完之后3分鐘之內(nèi)，美國股市的市值就蒸發(fā)了1千多億美金，如果你去要看它的基本面，不可能有1千億的變化，所以我們認(rèn)為，這3分鐘之內(nèi)發(fā)生的事情，一定是跟推特相關(guān)的。

為什么呢？這里面能看到兩件事，第一件事是說Associate Press的社交媒體推特還是很有影響的，它真的能夠?qū)善笔袌鲈斐珊艽蟮挠绊懀还苄侣勈钦娴倪€是假的。第二，你能看到非常多機(jī)器做交易，如果是人我們會(huì)判斷一下，這個(gè)事是真的還是假的，奧巴馬是不是真的受傷了。但是機(jī)器不會(huì)，機(jī)器寫了一些固定的算法，它會(huì)認(rèn)為奧巴馬受傷一定是壞事，所以它就開始做做交易賣出股票。這里面1千多億的市值蒸發(fā)很大部分是由于機(jī)器做交易造成的，所謂的量化的算法。

再比如維基百科，你能看到在發(fā)布年報(bào)前后的時(shí)間內(nèi)，大家對(duì)Intel維基百科的頁面訪問翻倍，從2000多次變到4000多次，說明大家對(duì)社交媒體的關(guān)注度是非常高的。這個(gè)也是我們做研究發(fā)現(xiàn)有意思的事，發(fā)布年報(bào)的時(shí)候有兩種情況，第一是公司業(yè)績非常好，第二是沒有那么好。當(dāng)你的業(yè)績不好的時(shí)候，就是一條藍(lán)線，和你業(yè)績好的時(shí)候比較，平均來講當(dāng)年報(bào)業(yè)績不好的時(shí)候，公司不愿意發(fā)推特，他們發(fā)得比較少，但是可以看到離年報(bào)發(fā)布的前幾天的時(shí)候，突然一下子暴漲起來，這個(gè)時(shí)間差不多是4天。

這個(gè)分析我們得到一個(gè)什么結(jié)論呢？當(dāng)業(yè)績好的時(shí)候，這些公司都在說同樣一件事，說我們的業(yè)績好，今年股票的回報(bào)大概是多少，我們花了多少錢，我們在明年有什么計(jì)劃，這些都是非常好的跟公司業(yè)績相關(guān)的推特。

這時(shí)候可以反推，當(dāng)你還不知道具體情況時(shí)，你看到推特上的內(nèi)容就可以進(jìn)行一些辨別。根據(jù)這個(gè)便可以做模型訓(xùn)練，當(dāng)你看到它的歷史曲線的時(shí)候，你發(fā)現(xiàn)突然有一家公司在年報(bào)發(fā)布附近的時(shí)候突然開始說一些莫名其妙的話，說明他今年的表現(xiàn)不一定很好。這是可以做成訓(xùn)練模型去看的。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

如何構(gòu)建不確定性因果關(guān)系模型？

那么如何建立因果關(guān)系呢？經(jīng)濟(jì)學(xué)里有個(gè)方法叫工具變量，舉個(gè)例子說，假設(shè)我們想知道X是不是影響Y，比如說X你是否抽煙，Y是你有沒有肺癌。我們會(huì)搜Data，這個(gè)人抽煙有肺癌，那個(gè)人抽煙沒有肺癌，搜了一堆的數(shù)據(jù)，得到的結(jié)論是說抽煙導(dǎo)致肺癌。但是這個(gè)是不是真的呢？不一定，因?yàn)檫€有可能是你看不到的一個(gè)現(xiàn)象，這個(gè)現(xiàn)象導(dǎo)致你既抽煙又容易肺癌?；蛘哒f你看不到的U決定了這些人幾遍不抽煙也會(huì)得肺癌。比方說這是地域的原因，又比如說住在某個(gè)省的人更容易抽煙、更容易得肺癌，跟他抽不抽煙沒關(guān)系。也有可能是基因的問題，有的人是生下來就會(huì)得肺癌，抽不抽煙也會(huì)得肺癌，這些人碰巧另外一個(gè)基因決定他又容易抽煙。當(dāng)你有這種現(xiàn)象的時(shí)候，你是沒法說抽煙是否能導(dǎo)致肺癌的。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

怎么辦呢？我們就會(huì)找一個(gè)工具變量，我們希望它和抽不抽煙是相關(guān)的，但是跟看不到的現(xiàn)象基因、地域是沒關(guān)的。怎么找到這個(gè)東西呢？比如說最簡單的，國家現(xiàn)在要征收煙草稅，煙草稅是跟你抽不抽煙相關(guān)的，煙草稅一提上來，可能你抽煙就變少了。但是煙草稅跟你的地域是沒關(guān)的，因?yàn)檫@是國家政策，所有地域都會(huì)受影響，跟你的基因是沒關(guān)的。這個(gè)就叫工具變量，當(dāng)你有這樣的一個(gè)體系之后，你就能分析出來X和Y的關(guān)系，因果關(guān)系就能出來。如果我們的machine learning你只關(guān)注在X到Y(jié)這條線上，有可能你最后的結(jié)論是錯(cuò)的。即便發(fā)現(xiàn)一個(gè)正相關(guān)，得到的結(jié)論也是錯(cuò)的。但是如果你知道怎么用工具變量做這件事的時(shí)候，你就解決了之間的因果關(guān)系。

港科大張曉泉教授演講全文：經(jīng)濟(jì)學(xué)如何優(yōu)化AI在金融領(lǐng)域的應(yīng)用？ | CCF-GAIR 2017

大家經(jīng)常講Human in the loop，我覺得應(yīng)該要有Econ in the loop的概念。如果你用Econ in the loop的idea來做，用因果關(guān)系的分析能夠結(jié)合在machine learning的model里面，就可以做非常好的研究，得到很好的結(jié)果。謝謝大家！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章