0
本文作者: 周蕾 | 2020-09-08 09:56 |
2020年8月7日-9日,第五屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì),于深圳隆重舉辦。
此次峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
在大會(huì)第三日的「AI金融專(zhuān)場(chǎng)」中,著名統(tǒng)計(jì)學(xué)家、普林斯頓大學(xué)金融講座教授范劍青,從大數(shù)據(jù)與人工智能、穩(wěn)健因子學(xué)習(xí)及其應(yīng)用、債券風(fēng)險(xiǎn)溢價(jià)預(yù)測(cè)、高頻交易預(yù)測(cè)、文本分析與金融投資,這五大板塊,向與會(huì)者報(bào)告近些年他的研究團(tuán)隊(duì)的部分工作成果。
范劍青是國(guó)際數(shù)理統(tǒng)計(jì)學(xué)會(huì)創(chuàng)辦70年以來(lái)第一位華人主席,也是統(tǒng)計(jì)旗艦雜志《統(tǒng)計(jì)年鑒》的第一位華人主編,論文引用數(shù)多年位列世界數(shù)學(xué)家前十名,是素有統(tǒng)計(jì)學(xué)諾貝爾獎(jiǎng)之稱(chēng)的CPOSS總統(tǒng)獎(jiǎng)得主,也是《概率及其相關(guān)領(lǐng)域》、《計(jì)量經(jīng)濟(jì)》、《商務(wù)統(tǒng)計(jì)》等五個(gè)國(guó)際頂尖學(xué)術(shù)期刊的主編。
在范劍青看來(lái),人工智能是機(jī)器學(xué)習(xí)的平方,讓機(jī)器自動(dòng)學(xué)習(xí)機(jī)器算法、是機(jī)器學(xué)習(xí)的理想境界。而大數(shù)據(jù)賦能AI,從大數(shù)據(jù)相關(guān)的科學(xué)挑戰(zhàn)衍生的新興科學(xué)即為數(shù)據(jù)科學(xué),他認(rèn)為數(shù)據(jù)科學(xué)以應(yīng)用為背景,其目的是想把大數(shù)據(jù)解決成智慧數(shù)據(jù)。
他指出,大數(shù)據(jù)=系統(tǒng)+分析+應(yīng)用,機(jī)器學(xué)習(xí)=統(tǒng)計(jì)+優(yōu)化+實(shí)現(xiàn)環(huán)境。
如今深度學(xué)習(xí)之所以能如此成功,范劍青認(rèn)為它是權(quán)衡偏差和方差的有效方法,深度網(wǎng)絡(luò)使高維函數(shù)更加靈活,大數(shù)據(jù)降低了統(tǒng)計(jì)方差,而現(xiàn)在計(jì)算技術(shù)使大數(shù)據(jù)深度學(xué)習(xí)得到有效的實(shí)現(xiàn)。
范劍青認(rèn)為,在經(jīng)濟(jì)金融、生物醫(yī)學(xué)、管理決策和人文社會(huì)中,機(jī)器學(xué)習(xí)有很多挑戰(zhàn)和機(jī)遇。由于個(gè)體差異大,數(shù)據(jù)集未知,現(xiàn)在發(fā)生的事情與幾年后的變量完全不一樣,難以提取特征,需要各學(xué)科交叉。尤其是在金融行業(yè),數(shù)據(jù)不平穩(wěn),隨著時(shí)間而變,多人參與競(jìng)爭(zhēng)的市場(chǎng)也是對(duì)金融的挑戰(zhàn)。
而機(jī)器學(xué)習(xí)本身就是為降低維數(shù)和預(yù)測(cè)而設(shè)計(jì)的,他認(rèn)為機(jī)器能學(xué)習(xí)金融,盡管金融非常復(fù)雜,但它的形式是可預(yù)測(cè)的。以股票收益預(yù)測(cè)為例,可以通過(guò)高維線(xiàn)性模型、機(jī)器學(xué)習(xí)模型或是深度學(xué)習(xí)模型來(lái)處理。他強(qiáng)調(diào),成功預(yù)測(cè)的屬性一是大數(shù)據(jù),二是魯棒,三是模型具備市場(chǎng)的重要特征。
他還詳盡地用幾個(gè)例子來(lái)說(shuō)明溢價(jià)預(yù)測(cè)相關(guān)的問(wèn)題,例如通過(guò)市場(chǎng)因子來(lái)預(yù)測(cè)債券風(fēng)險(xiǎn);并介紹了現(xiàn)階段可以使用的兩種因子學(xué)習(xí)方法,一是傳統(tǒng)主成分方法,二是利用投影主成分來(lái)操作。
此外,范劍青也與現(xiàn)場(chǎng)觀眾介紹了文本數(shù)據(jù)如何協(xié)助股票投資決策,他表示現(xiàn)在可以通過(guò)對(duì)新聞內(nèi)容的分析,解析文章對(duì)股票的褒貶程度。
最后,范劍青總結(jié)稱(chēng),資產(chǎn)定價(jià)本質(zhì)上是預(yù)測(cè)問(wèn)題,機(jī)器可以學(xué)習(xí)金融。他認(rèn)為機(jī)器學(xué)習(xí)可以幫助處理大數(shù)據(jù)并從中選擇重要因素和特征,能很好地應(yīng)對(duì)過(guò)度擬合的問(wèn)題,允許非線(xiàn)性學(xué)習(xí)極大地改善預(yù)測(cè)效果,將穩(wěn)健性和對(duì)抗性網(wǎng)絡(luò)提煉為定價(jià),智能預(yù)測(cè)也會(huì)帶來(lái)很大的經(jīng)濟(jì)收益。
以下是范劍青的大會(huì)報(bào)告內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嬇c整理:
非常榮幸能夠參加第五屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)。我今天的報(bào)告主題是《機(jī)器是怎么學(xué)習(xí)金融的》。
這次報(bào)告的內(nèi)容,是我們金融工程實(shí)驗(yàn)室多人的工作成果,大綱如下:
大數(shù)據(jù)與人工智能
穩(wěn)健因子學(xué)習(xí)及其應(yīng)用
債券風(fēng)險(xiǎn)溢價(jià)預(yù)測(cè)
高頻交易預(yù)測(cè)
文本數(shù)據(jù)與資產(chǎn)定價(jià)
眾所周知,人工智能是由John McCarthy于1955年首次提出,一年后,他也與多名科學(xué)家組織了著名的Dartmouth會(huì)議。
何謂人工智能?
Wikipedia中是這樣介紹的:“人工智能”指機(jī)器模仿人類(lèi)的“認(rèn)知”功能所展示的智能,例如“學(xué)習(xí)”和“解決問(wèn)題”?,F(xiàn)實(shí)中的人工智能是技術(shù)能夠訓(xùn)練機(jī)器,將人從重復(fù)性、簡(jiǎn)單性、危險(xiǎn)性的繁瑣事務(wù)中解除出來(lái)。
Thomas J.Sargent:人工智能其實(shí)是統(tǒng)計(jì)學(xué),只不過(guò)用了一個(gè)華麗辭藻。
我認(rèn)為人工智能是機(jī)器學(xué)習(xí)的平方,讓機(jī)器自動(dòng)學(xué)習(xí)機(jī)器算法、是機(jī)器學(xué)習(xí)的理想境界。目前內(nèi)容包括圖像識(shí)別、語(yǔ)音識(shí)別、機(jī)器學(xué)習(xí)、機(jī)器人、專(zhuān)家系統(tǒng)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等。
為什么現(xiàn)在大家談人工智能?What powers AI?
是大數(shù)據(jù)。
現(xiàn)在大數(shù)據(jù)無(wú)處不在,商業(yè)大數(shù)據(jù)、醫(yī)學(xué)大數(shù)據(jù)、網(wǎng)絡(luò)大數(shù)據(jù)、政府大數(shù)據(jù)等。針對(duì)大數(shù)據(jù)的共性,解決其對(duì)大數(shù)據(jù)系統(tǒng)和分析的科學(xué)挑戰(zhàn)所產(chǎn)生的新興科學(xué)叫數(shù)據(jù)科學(xué)。
我個(gè)人認(rèn)為數(shù)據(jù)科學(xué)以應(yīng)用為背景,包括數(shù)據(jù)的獲取、存儲(chǔ)、數(shù)據(jù)分析、科學(xué)計(jì)算。數(shù)據(jù)科學(xué)的目的是想把大數(shù)據(jù)解決成智慧數(shù)據(jù)。
我把它總結(jié)為:大數(shù)據(jù)=系統(tǒng)+分析+應(yīng)用。
何謂機(jī)器學(xué)習(xí)?
Arthur L Samuel在1959年的“跳棋游戲”論文中創(chuàng)造了“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ):讓機(jī)器從數(shù)據(jù)中學(xué)習(xí)并做決策,它是可擴(kuò)展的統(tǒng)計(jì)算法,充分融合統(tǒng)計(jì)建模思想和計(jì)算優(yōu)化方法。使這些數(shù)據(jù)分析的思想能在大數(shù)據(jù)環(huán)境下得到有效的實(shí)現(xiàn)。
我個(gè)人認(rèn)為機(jī)器學(xué)習(xí)是:統(tǒng)計(jì)+優(yōu)化+實(shí)現(xiàn)環(huán)境。
機(jī)器學(xué)習(xí)最后的產(chǎn)品一定是可操作的代碼(Actionable codes)。
為了有可操作的代碼,我們需有優(yōu)化的目標(biāo)(Optimization objects),為了有優(yōu)化的目標(biāo),我們需有統(tǒng)計(jì)模型(Statistical Modeling)和經(jīng)濟(jì)效用(Economic Utility)。
現(xiàn)在最常見(jiàn)的是深度學(xué)習(xí)。
深度學(xué)習(xí)的概念是很常見(jiàn)的,是數(shù)學(xué)的函數(shù)逼近,它用的是兩種方法,信號(hào)源的線(xiàn)性組合,再做非線(xiàn)性的選擇,重復(fù)的過(guò)程構(gòu)成很復(fù)雜的函數(shù)逼近方法。
為何今天深度學(xué)習(xí)這么成功?
我認(rèn)為它是很好的權(quán)衡偏差和方差的有效方法。深度網(wǎng)絡(luò)使得高維函數(shù)逼近更加靈活,即偏差很小。
另外90年代,我們就參與建設(shè)了這方面的工作,為什么學(xué)術(shù)界和工業(yè)界現(xiàn)在才大談深度學(xué)習(xí)?
主要是因?yàn)榇髷?shù)據(jù)的到來(lái),大數(shù)據(jù)的到來(lái)大大減少統(tǒng)計(jì)的方差,樣本量變大,方差自然變小。
現(xiàn)在計(jì)算技術(shù)使得大規(guī)模優(yōu)化成為現(xiàn)實(shí),使得我們可以在大數(shù)據(jù)上實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)逼近函數(shù)。
簡(jiǎn)而言之是非參數(shù)統(tǒng)計(jì)思想在高維海量數(shù)據(jù)環(huán)境下的實(shí)現(xiàn)。
具體成功案例是圖像識(shí)別、機(jī)器翻譯、語(yǔ)音處理等等。
這些問(wèn)題的共同特點(diǎn)是個(gè)體差異小,我們說(shuō)話(huà)盡管各有口音,但個(gè)體間的差異小,而且信號(hào)集已知,你看到的圖像就是你那張圖像。換句話(huà)說(shuō)X是已知的,信噪比大,∈小,學(xué)習(xí)得比較好。
我們今天要談的主要是機(jī)器學(xué)習(xí)的挑戰(zhàn)。
對(duì)于經(jīng)濟(jì)金融、生物醫(yī)學(xué)、管理決策和人文社會(huì),機(jī)器學(xué)習(xí)有很多挑戰(zhàn)和機(jī)遇,第一是個(gè)體差異大,第二是數(shù)據(jù)集未知。
例如上圖是閃電崩盤(pán),這次發(fā)生的事情和幾年后發(fā)生的事情,可能變量完全不一樣,是什么引起的我們也不知道,所以難以提取特征,需要各學(xué)科交叉,使得這方面的發(fā)展挑戰(zhàn)更大。
對(duì)金融來(lái)說(shuō),金融數(shù)據(jù)的特點(diǎn)是什么?
第一信號(hào)低,跟物理不一樣,物理信噪比很強(qiáng)。
第二數(shù)據(jù)不平穩(wěn),一直是隨著時(shí)間的變化而變化的,整個(gè)市場(chǎng)也是隨著時(shí)間的變化而變化,很多人參與,這是一個(gè)競(jìng)爭(zhēng)的市場(chǎng)。這是對(duì)金融的挑戰(zhàn)。
機(jī)器能學(xué)習(xí)金融嗎?回答是肯定的:
第一,資產(chǎn)定價(jià)問(wèn)題,本質(zhì)上是預(yù)測(cè)問(wèn)題,機(jī)器學(xué)習(xí)本身就是為預(yù)測(cè)設(shè)計(jì)的。
第二,影響市場(chǎng)的因子變量很多,這些變量往往是相關(guān)的。機(jī)器學(xué)習(xí)本身就是為降低維度和變量選擇設(shè)計(jì)的。
第三,定價(jià)的公式,不像物理是推導(dǎo)出來(lái)的、有很多假設(shè)的。資產(chǎn)定價(jià)非常復(fù)雜、形式未知。機(jī)器學(xué)習(xí)正是為高維復(fù)雜的非線(xiàn)性組合而設(shè)計(jì)。
基于這三個(gè)原因,我認(rèn)為機(jī)器從某種程度上講是能夠?qū)W習(xí)金融。
如果我有一個(gè)黑盒子可以預(yù)測(cè)金融下一刻的回報(bào),我們應(yīng)該如何投資?
假設(shè)有1000只股票,有這1000只股票的額外收益數(shù)據(jù),還有風(fēng)險(xiǎn)因子和公司本身變量數(shù)據(jù),我們要預(yù)測(cè)每一只股票的額外收益或者投在每一只股票上的權(quán)重。
如果你預(yù)測(cè)第i只股票,你肯定要建一個(gè)形式,一個(gè)是宏觀變量(macro-factors),一個(gè)是公司的變量(firm characteristics)。
我們對(duì)每一只股票進(jìn)行預(yù)測(cè),常用回歸來(lái)做,,
可以是高維線(xiàn)性模型、機(jī)器學(xué)習(xí)模型或者深度學(xué)習(xí)模型。
舉例來(lái)說(shuō),我要預(yù)測(cè)下一個(gè)時(shí)刻的股票回報(bào),我要用現(xiàn)在時(shí)刻市場(chǎng)因子,加上每個(gè)預(yù)測(cè)的參數(shù)
肯定跟第i只股票和時(shí)刻t有關(guān)系。這既依賴(lài)第i只股票,也依賴(lài)第t天。
我們把做成線(xiàn)性回歸的形式
,把
寫(xiě)在一起,我們很容易得到1000個(gè)變量甚至更多。
有了預(yù)測(cè)后,我們一般怎么投?1000只股票里,在我預(yù)測(cè)里的top 10%做多,bottom 10%做空。
首先這應(yīng)該是Risk-neutral的投資。市場(chǎng)漲時(shí),top 10%漲,bottom 10%降;市場(chǎng)降時(shí),top 10%降,bottom 10%漲。
第二是這樣的投資組合足夠多樣性(diversified)。第三充分體現(xiàn)你的預(yù)測(cè)信息,哪些股票是top 10%,哪些股票是bottom 10%。
還有一種方法比較好,是6月份剛寫(xiě)完放在網(wǎng)上的一篇文章。關(guān)鍵詞是“Principal Portfolios”,用你估計(jì)到的信號(hào)和
做一個(gè)主成分投資組合。
第三種很傳統(tǒng),用資產(chǎn)定價(jià)理論,在時(shí)刻t構(gòu)造一個(gè)Portfolio,使得最小化。神經(jīng)對(duì)抗網(wǎng)絡(luò)可以解決這種條件預(yù)測(cè)問(wèn)題。
以上是資產(chǎn)定價(jià)常見(jiàn)的三種方法。
大家自然會(huì)問(wèn)預(yù)測(cè)成功的因素是什么?一是大數(shù)據(jù);二是魯棒性;三是你的模型捕獲能力。
什么是大數(shù)據(jù)的典型特征?
相依性和厚尾性:我們很多變量都是衡量市場(chǎng)的經(jīng)濟(jì)狀況,必然相關(guān)
異樣性、內(nèi)生性、假相關(guān)等
數(shù)據(jù)缺失,測(cè)量誤差
幸存者偏差,采樣偏差
這些特征對(duì)金融和宏觀經(jīng)濟(jì)學(xué)尤其明顯。
今天我們主要講如何處理相依性和厚尾性一些方法。
接下來(lái)我用一個(gè)學(xué)術(shù)上常用的例子預(yù)測(cè)債券風(fēng)險(xiǎn)溢價(jià)來(lái)說(shuō)明。
我要預(yù)測(cè)的變量是美國(guó)債券,債券有2、3、4等年期,可以對(duì)每一個(gè)債券進(jìn)行預(yù)測(cè)。
是131個(gè)宏觀經(jīng)濟(jì)系列的月度數(shù)據(jù)。除此之外我們還有8個(gè)國(guó)內(nèi)生產(chǎn)總值,居民消費(fèi)價(jià)格指數(shù)等匯總宏觀經(jīng)濟(jì)系列。這131個(gè)變量都是衡量經(jīng)濟(jì)的健康狀況,所以他們是相關(guān)的。
我們對(duì)每一個(gè)時(shí)間序列算峰度(kurtosis),分布如圖所示。有大概三分之一左右峰度大于,它們應(yīng)該是厚尾分布。我們自然而然會(huì)問(wèn):如何處理厚尾?我們從131個(gè)變量學(xué)習(xí)決定市場(chǎng)的因子之外,我們還有8個(gè)宏觀經(jīng)濟(jì)時(shí)間序列,我們?nèi)绾问褂眠@8個(gè)信息更好地提取市場(chǎng)因子?
如果大家要看論文,可以看看這一篇綜述:Fan, J., Wang, K., Zhong, Y., and Zhu, Z. (2020).Robust high dimensional factor models with applications to statistical machine learning. Statistical Science, to appear.
如果更詳盡大家可以看看我們新著的《Statistical Foundations of Data Science》這本書(shū),有三章會(huì)講這方面內(nèi)容。
什么是因子模型?假設(shè)我有1000只股票,有5個(gè)影響這1000只股票漲幅的市場(chǎng)因子,不同的股票對(duì)不同因子的依賴(lài)程度不一樣,因此有一個(gè)載荷矩陣 B。
再加上每一只股票自己的特質(zhì)因素(idiosyncratic components) ,很多時(shí)候我們把這兩個(gè)部分稱(chēng)為
。這種衡量1000只股票的相關(guān)性,在股票市場(chǎng)上有很多應(yīng)用,同樣對(duì)其它方面也有很多應(yīng)用。比如根據(jù)1000個(gè)基因的表達(dá)共同性,找出潛在的因子。
我們主要的信息是什么?我們學(xué)習(xí)了因子后,我們把因子共性的部分完全學(xué)習(xí)好,把它減掉,則整個(gè)信噪比增加。
舉一個(gè)簡(jiǎn)單的例子。設(shè)想我用131個(gè)宏觀經(jīng)濟(jì)序列來(lái)預(yù)測(cè)債券風(fēng)險(xiǎn)溢價(jià)。這131個(gè)變量具有高相關(guān)性,機(jī)器學(xué)習(xí)里常用的變量選擇方法,正則性會(huì)不滿(mǎn)足。
如果把131個(gè)變量分成不同因子:共性+個(gè)性,然后把代到
里,我們變成兩部分:共性
和個(gè)性
。假設(shè)影響這些宏觀變量的共同因子是5個(gè),共性的參數(shù)是5個(gè),個(gè)性的參數(shù)是131個(gè),最后得到136維空間的變量。
這136維空間中變量的相關(guān)性很弱,因?yàn)橄嚓P(guān)的部分已經(jīng)取出來(lái)。如果把現(xiàn)在的作為你新的變量,我們平時(shí)采用的高維方法就能工作。這就是我們提出的因子調(diào)整的模型(FARMselect)方法。簡(jiǎn)而言之是先學(xué)習(xí)共同的因子,然后用
和
作為預(yù)測(cè)變量。
如果你把學(xué)好了,
求出來(lái)之后解一解就可以了。整個(gè)思想是把原來(lái)131個(gè)變量變成136個(gè)變量,空間變得大了,變量變得弱相關(guān)。用共性+個(gè)性,和原來(lái)的
是等價(jià)的,這個(gè)過(guò)程其實(shí)是用因子增進(jìn)預(yù)測(cè)能力。
舉一個(gè)模擬的例子。這是線(xiàn)性模型,前10個(gè)變量對(duì)Y有影響,后面的變量沒(méi)有影響。X如果是有共同的相關(guān)性,假設(shè)有250個(gè)變量,做100次模擬,每一個(gè)時(shí)間序列長(zhǎng)度是100。
如果我們用原始Lasso來(lái)做變量選擇,只有在完全不相關(guān)時(shí),Lasso工作得還好。只要相關(guān)系數(shù)增加一點(diǎn)點(diǎn),Lasso就不能完全選出這10個(gè)變量。
另一方面,如果我把這250個(gè)個(gè)性,加上每一個(gè)共同的因子拿出來(lái)作為第251個(gè)變量,就可以達(dá)到100%的正確模型選擇。如果說(shuō)不知道是不是251個(gè),而用255個(gè)可以嗎?可以,也可以得到這樣的效果。
如果Σ設(shè)成像標(biāo)普500只成分股那樣的協(xié)方差,最后的結(jié)果是一樣的,我們可以百分百把重要的變量選出來(lái),其他的方法做不到。
同樣的話(huà),我們可以把這個(gè)方法拿來(lái)做統(tǒng)計(jì)推斷。比如我們自然而然會(huì)問(wèn)到底有多少共同基金有技能(positive alpha)?設(shè)想我有1000個(gè)共同基金,我們把分成共性+個(gè)性。
以前最簡(jiǎn)單的做法是把每一個(gè)共同基金的額外收益平均作為統(tǒng)計(jì)量,這樣的統(tǒng)計(jì)量肯定是相關(guān)的,有共同因子,且噪音比較大。我們所說(shuō)的因子調(diào)整是學(xué)習(xí)共同的因子并減去,這樣得到的統(tǒng)計(jì)量是弱相關(guān),且減少噪音。
我們有相關(guān)的模擬試驗(yàn)來(lái)證明,我只是做一個(gè)簡(jiǎn)單的介紹。想象我們有500只股票,為了圖像方便理解,25%的基金有技能,為0.6, 75%沒(méi)有
。假設(shè)觀測(cè)100天,只是做500只基金平均回報(bào)的直方圖,基本分不出哪部分有技能,哪些沒(méi)有。
如果我們把共同因子先學(xué)習(xí)一下然后減掉,就比較容易區(qū)分了。因?yàn)槭莟3-分布,尾巴比較重(heavy-tailed),如果我們做魯棒均值估計(jì), 就可以把這兩者分得很開(kāi)。
同樣地,因子學(xué)習(xí)后,我們也可以做預(yù)測(cè)。從131個(gè)宏觀變量里,我可以學(xué)到5個(gè)潛在因子,有8個(gè)匯總宏觀變量,加起來(lái)有13個(gè)變量。最簡(jiǎn)單的是用這13個(gè)變量做線(xiàn)性回歸來(lái)預(yù)測(cè)債券風(fēng)險(xiǎn)溢價(jià)。
另外一種是構(gòu)建預(yù)測(cè)指標(biāo),整個(gè)模型看起來(lái)像神經(jīng)網(wǎng)絡(luò)。我們認(rèn)為有一些共同的因子影響這些宏觀變量,所以從131個(gè)宏觀變量中學(xué)習(xí)共同因子后,構(gòu)造預(yù)測(cè)指標(biāo),最后預(yù)測(cè)債券風(fēng)險(xiǎn)溢價(jià)。
提起因子,除了我們平時(shí)做的主成分分析之外,我們?nèi)绾伟?個(gè)額外的變量加入因子學(xué)習(xí)的過(guò)程中?很簡(jiǎn)單,是常見(jiàn)的因子模型,假設(shè)這幾個(gè)未知因子
跟
是有關(guān)系的,對(duì)這個(gè)模型我們?nèi)绾尾僮鳎?/p>
我們對(duì)每一個(gè)宏觀經(jīng)濟(jì)序列和8個(gè)匯總宏觀變量
做回歸,這個(gè)擬合所得是X用W回歸的擬合值,再對(duì)該擬合值做主成分分析,這樣就把8個(gè)變量糅合到131個(gè)變量里。
為什么這個(gè)方法可行?因?yàn)樽龌貧w從數(shù)學(xué)上來(lái)說(shuō)是基于條件期望。我們做投影的目的是什么?先把這部分的噪聲平滑掉,這樣就可以把因子學(xué)得更好。這是我們主要的想法。
因子模型還有其他的應(yīng)用。比如金融風(fēng)險(xiǎn)建模,對(duì)高頻金融里流動(dòng)性強(qiáng)和差的股票之間的協(xié)方差矩陣的估計(jì),用矩陣填補(bǔ)的方法可以獲得。你也可以用相關(guān)性來(lái)學(xué)習(xí)社區(qū)增強(qiáng)自回歸模型之類(lèi),其關(guān)鍵是降維。
因子模型的目的是處理相關(guān)性,接下來(lái)我講幾分鐘我們?nèi)绾翁幚矸€(wěn)健性。假設(shè)你給我們的數(shù)據(jù)不一定是正態(tài)分布的,也可能是t分布的,有均值及方差。
我們平時(shí)對(duì)數(shù)據(jù)最簡(jiǎn)單的處理是剪裁或截?cái)啵绨褦?shù)據(jù)在-3到3個(gè)標(biāo)準(zhǔn)差之間就保留,其余就截掉,這樣做好處是肯定產(chǎn)生偏差。如果τ選擇的足夠大的話(huà),這種偏差是可以忽略的:裁剪的數(shù)據(jù)的樣本平均跟原來(lái)的母體平均的差別就像數(shù)據(jù)是來(lái)自高斯分布一樣。
換句話(huà)說(shuō),如果τ足夠大,那么裁剪樣本平均與母體平均之間的區(qū)別跟正態(tài)的樣本平均與母體平均之間區(qū)別是一樣的,最后的分布是具有高斯的尾部性質(zhì)。
說(shuō)寬泛一點(diǎn)的話(huà),裁剪樣本平均表現(xiàn)像高斯分布,而沒(méi)有裁剪樣本平均表現(xiàn)像柯西分布。為什么我們以前不太強(qiáng)調(diào)裁剪?因?yàn)槲覀冊(cè)诘途S傳統(tǒng)統(tǒng)計(jì)中做樣本平均不多,在高維統(tǒng)計(jì)中會(huì)做很多樣本平均。所以高斯?jié)饪s(Gaussian concentration) 是高維統(tǒng)計(jì)的核心。
舉一個(gè)例子。如果你給我1000只股票,我要做投資,我要估計(jì)這1000乘1000個(gè)協(xié)方差矩陣,應(yīng)該有50萬(wàn)個(gè)參數(shù)左右。所以要算樣本均值50萬(wàn)個(gè)。
如果數(shù)據(jù)是厚尾的,最后的協(xié)方差矩陣就不魯棒。如果用了裁剪,當(dāng)數(shù)據(jù)僅具有4階距,就能實(shí)現(xiàn)與高斯數(shù)據(jù)的樣本協(xié)方差矩陣相同的估計(jì)精度。
做回歸時(shí),如果我們用裁剪數(shù)據(jù)不是很方便,這時(shí)候我們會(huì)用Huber 損失函數(shù)。為什么說(shuō)是自適應(yīng)Huber 損失,是因?yàn)槭歉愕臉颖玖坑嘘P(guān)系?;驹诶锩媸且粋€(gè)二次型,外面是一個(gè)線(xiàn)性的。
我們這里畫(huà)了這么多圖,是因?yàn)槲覀冇昧撕芏嗖煌?。這顯然對(duì)回歸更方便,就像前面說(shuō)的高斯?jié)饪s性質(zhì)任然成立,這是兩個(gè)魯棒方法的主要思想。
簡(jiǎn)單做個(gè)小結(jié):
我們用因子模型來(lái)解決觀測(cè)到股票相關(guān)的問(wèn)題。我們是用裁剪數(shù)據(jù)來(lái)解決魯棒問(wèn)題,對(duì)回歸問(wèn)題我們用裁剪損失函數(shù),即Huber損失函數(shù),來(lái)得到魯棒性質(zhì)的。我們說(shuō)過(guò)預(yù)測(cè)的好特征必須是魯棒。
債券風(fēng)險(xiǎn)溢價(jià)預(yù)測(cè)
關(guān)于溢價(jià)預(yù)測(cè),我們現(xiàn)在有兩種因子學(xué)習(xí)方法:
一是傳統(tǒng)因子學(xué)習(xí)方法。從131個(gè)未匯總的宏觀變量中提取因子,加上8個(gè)匯總的宏觀變量,一共是13個(gè)變量,來(lái)預(yù)測(cè)債券風(fēng)險(xiǎn)溢價(jià)。
二是投影主成分(PPCA)。直接糅入
里面一起學(xué)習(xí)。不是簡(jiǎn)單地從131個(gè)變量變成139個(gè)變量來(lái)學(xué)習(xí),而是用投影主成分分析來(lái)學(xué)習(xí),因?yàn)檫@兩種變量不一樣,
是未匯總的,而
是匯總的。然后用新的
和
作為預(yù)測(cè)變量。
我們來(lái)看一下預(yù)測(cè)的效果。如果我預(yù)測(cè)兩年期的債券風(fēng)險(xiǎn)溢價(jià),用傳統(tǒng)方法學(xué)習(xí)到5個(gè)因子,再加上8個(gè)匯總宏觀變量,一共13個(gè)做線(xiàn)性回歸,得到的Out-of-sample R2,有24%的債券風(fēng)險(xiǎn)溢價(jià)能夠被這131+8個(gè)變量所預(yù)測(cè)。
如果因子學(xué)習(xí)得好一點(diǎn),把揉入學(xué)習(xí)因子,就是投影主成分分析,這一下預(yù)測(cè)率就可漲到32.6%。如果說(shuō)把統(tǒng)計(jì)的穩(wěn)健思想都加進(jìn)去的話(huà),就可以預(yù)測(cè)到38.1%。對(duì)三年期也是一樣,從21-28-32%。這些預(yù)測(cè)都是用線(xiàn)性模型做的。
如果我們用非線(xiàn)性模型來(lái)預(yù)測(cè),效果比剛才的預(yù)測(cè)都要好,最后Out-of-sample R2可以達(dá)到45%左右。這就可以看出來(lái)穩(wěn)健方法和PPCA因子學(xué)習(xí)一起學(xué)習(xí)比較好,這是其改進(jìn)的程度。
接下來(lái)簡(jiǎn)單介紹高頻交易的預(yù)測(cè)。高頻交易在過(guò)去10年里是高速增長(zhǎng)的,帶來(lái)了金融大數(shù)據(jù)。到2015年,高頻交易在美國(guó)股票市場(chǎng)占比超過(guò)50%,約55%左右,在歐洲大概占40%左右,日本大概是30%左右。其他的亞洲國(guó)家是5%左右,高頻交易是在其他亞洲國(guó)家出現(xiàn)得比較少。
從2012年10月到2014年十月,在外匯交易中,80%的交易量是算法交易,其中多半是高頻交易。所以高頻交易顯然是把大數(shù)據(jù)帶到金融世界里。
我們自然而然會(huì)問(wèn)機(jī)器學(xué)習(xí)的方法是不是能夠幫助我們做預(yù)測(cè)或者做高頻交易?這個(gè)環(huán)境顯然是大數(shù)據(jù)環(huán)境。我們總的目的是要用過(guò)去預(yù)測(cè)未來(lái)。
那么,自然而然需要問(wèn),什么是可以預(yù)測(cè),Momentums可以預(yù)測(cè)還是Durations可以預(yù)測(cè)?那么,什么是有用的預(yù)測(cè)因素呢?我們要往后看多久?現(xiàn)在機(jī)器學(xué)習(xí)的方法有沒(méi)有任何優(yōu)勢(shì)?
關(guān)于TAQ數(shù)據(jù)這個(gè)我們就不多講了。
我們說(shuō)的Momentum是這樣定義的。如圖紅點(diǎn)(出價(jià))和綠點(diǎn)(要價(jià)),它們未來(lái)或往上走或往下走。
第一次,這兩個(gè)點(diǎn)同時(shí)往上或往下走1-tick,對(duì)這個(gè)例子來(lái)說(shuō)正好是負(fù)的,我們就定義。如果我們繼續(xù)等待這兩個(gè)點(diǎn)同時(shí)往上或往下走2-tick時(shí),這兩個(gè)點(diǎn)同時(shí)往上走,是正的,也就是
。
簡(jiǎn)單來(lái)說(shuō),我們的Momentum是站在現(xiàn)在的時(shí)刻(也即是t),+1表示往上, -1表示往下。在中間的交易量,t到t'之間稱(chēng)為duration。1-tick的Duration表示的是當(dāng)前時(shí)刻t到下一個(gè)同時(shí)往上或者往下走1-tick的時(shí)刻t'之間的交易量,用表示,Duration
同理。
我們問(wèn)的是站在現(xiàn)在這個(gè)時(shí)間,我們能不能預(yù)測(cè)?我們能預(yù)測(cè)的變量顯然來(lái)自于交易數(shù)據(jù),包括交易價(jià)格、交易量多少、還有交易方向(是買(mǎi)入還是賣(mài)出)。對(duì)于報(bào)價(jià)數(shù)據(jù),有最佳買(mǎi)入價(jià)和最佳賣(mài)出價(jià)
,和它們相應(yīng)的買(mǎi)入量
和賣(mài)出量
,一共7個(gè)變量。如果往后看L步,那就是7乘L。
為了簡(jiǎn)單起見(jiàn),我用表示
(最佳買(mǎi)入價(jià)格)和
(最佳賣(mài)出價(jià)格),
表示
(最佳買(mǎi)入量)和
(最佳賣(mài)出量),上述這些都是原始數(shù)據(jù)。
另一方面,是專(zhuān)家構(gòu)造的預(yù)測(cè)因子,由于定義比較復(fù)雜,公式我沒(méi)有寫(xiě)出來(lái),例如Order Book Imbalance和Order Flow Imbalance。上述全部就是我們構(gòu)造的變量。
首先嘗試微軟的Momentum能否預(yù)測(cè)?我們最后的結(jié)論是可預(yù)測(cè)的。我們對(duì)微軟的數(shù)據(jù)用過(guò)去50個(gè)最佳報(bào)價(jià),每一個(gè)包含bid和ask,所以一共100個(gè)變量。我們用過(guò)去10天的數(shù)據(jù)訓(xùn)練,5天的數(shù)據(jù)做測(cè)試。
如果你只是做最佳隨機(jī)預(yù)測(cè)(BRG),基本正確率是50%左右。如果你做邏輯回歸(LR),大概是在55%左右。如果做EN,大概也是55%左右。如果用隨機(jī)森林(RF),你可以達(dá)到59%左右。GBT和FNN都差不多是59%左右。換句話(huà)說(shuō),機(jī)器學(xué)習(xí)的確有優(yōu)勢(shì)。
怎樣的變量是重要的?用綠線(xiàn)表示所有7個(gè)變量的結(jié)果,紅線(xiàn)表示選擇的一個(gè)子集(quote size和trade direction)的結(jié)果,紅線(xiàn)比隨機(jī)預(yù)測(cè)多預(yù)測(cè)8%。用該子集預(yù)測(cè)的效果跟用所有的變量預(yù)測(cè)幾乎差不多。如果往后看,這是,大概有900個(gè)變量。這時(shí)候過(guò)度擬合就可以看出來(lái)。但是如果用GBT或者FNN,過(guò)度擬合就不存在。
如果用專(zhuān)家設(shè)計(jì)的變量,例如OBL,不管你用哪個(gè)機(jī)器學(xué)習(xí)的方法來(lái)做,沒(méi)有超過(guò)8%左右。如果你用OFI來(lái)做,效果更差。
第一幅柱狀圖是我們用原始數(shù)據(jù)來(lái)做的,第二幅是原始數(shù)據(jù)+專(zhuān)家構(gòu)造的變量來(lái)預(yù)測(cè),最后的效果幾乎差不多,說(shuō)明機(jī)器完全學(xué)習(xí)了專(zhuān)家的變量。
第三幅是用瞬時(shí)的原始數(shù)據(jù)做的,第四幅是瞬時(shí)的原始數(shù)據(jù)+專(zhuān)家構(gòu)造的變量。加專(zhuān)家構(gòu)造的變量幾乎沒(méi)多少改進(jìn),說(shuō)明專(zhuān)家建立的變量已經(jīng)被機(jī)器學(xué)習(xí)的變量所涵蓋。
如果是0.5個(gè)tick,預(yù)測(cè)結(jié)果就會(huì)高很多。如果是2個(gè)tick,效果幾乎是差不多的。
對(duì)duration,我們也可做類(lèi)似的研究。這時(shí)duration是有多少交易量,它是一個(gè)連續(xù)的變量,所以我們做的是線(xiàn)性回歸,用Out-of-sample R2來(lái)衡量。
由于時(shí)間關(guān)系,我不再贅述。這個(gè)圖是說(shuō)加專(zhuān)家構(gòu)造的變量可能對(duì)預(yù)測(cè)duration有一點(diǎn)點(diǎn)幫助,但幫助可能不那么大。
對(duì)我們剛才高頻數(shù)據(jù)一個(gè)簡(jiǎn)單的總結(jié)如下圖:
文本數(shù)據(jù)與資產(chǎn)定價(jià)
由于時(shí)間不多,我簡(jiǎn)單介紹文本數(shù)據(jù)以及資產(chǎn)定價(jià)。這是我以前的學(xué)生,他用我們的篩選方法來(lái)做,我把他們的結(jié)果快速介紹一下。目的是學(xué)習(xí)文件和新聞的褒貶度,用它預(yù)測(cè)選擇股票。傳統(tǒng)一般用基于Dictionary的方法。
這是一個(gè)IBM的短文為例。詞典中總共有38,862個(gè)單詞,其中只有160個(gè)出現(xiàn)在短文中。
我們有一個(gè)n × m個(gè)文檔-詞匯矩陣d。假設(shè)100萬(wàn)條新聞?dòng)?萬(wàn)個(gè)詞匯。我們把這4萬(wàn)個(gè)詞匯變成S(帶情感詞匯) 和 N(情感中性詞匯)。我們主要關(guān)心帶情感詞匯。
假設(shè)選出來(lái)的200個(gè)詞,在第i個(gè)短文里出現(xiàn)5次第j個(gè)單詞,這樣,得到一個(gè)100萬(wàn)x200的矩陣。如果這個(gè)文章的褒貶程度是百分百正,這個(gè)單詞出現(xiàn)的概率是多少?如果是百分百負(fù)的話(huà),這個(gè)單詞出現(xiàn)概率多少?如果這第i個(gè)文章的褒貶程度是
的話(huà),這個(gè)單詞出現(xiàn)概率則是它們兩個(gè)概率的加權(quán)平均。
這樣第i個(gè)文章中S詞匯出現(xiàn)的次數(shù)服從多項(xiàng)分布,其中
表示S詞匯在百分之百正的文章中出現(xiàn)的概率,
表示S詞匯在百分之百負(fù)的文章中出現(xiàn)的概率。最后給定一個(gè)短文或者新聞,假設(shè)這個(gè)股票漲或者降與這篇文章對(duì)股票的褒貶程度
的關(guān)系呈單調(diào)性。這是我們的模型。
我們?nèi)绾螌W(xué)習(xí)?第一步學(xué)習(xí)哪些單詞帶有情緒,我們對(duì)每一個(gè)單詞可以計(jì)算:包含該單詞的新聞出現(xiàn)的那天回報(bào)是正的,除以該單詞出現(xiàn)的次數(shù)。即在回報(bào)是正時(shí),它出現(xiàn)的頻率有多少?越靠近百分百,說(shuō)明它是正面的詞;越靠近0,它應(yīng)該是負(fù)面的詞,因?yàn)榛貓?bào)要么是正的,要么是負(fù)的。
如果我們用最簡(jiǎn)單的相關(guān)篩選方法來(lái)做,看每個(gè)單詞跟正回報(bào)之間的相關(guān)性是多少,做一個(gè)簡(jiǎn)單的掃描我們的文件集,我們大概掃描出100-200個(gè)詞左右。這100-200個(gè)詞里頻率出現(xiàn)最高的有比如rally、undervalue等都是正面詞匯。相似的,blame、shortfall、fall等都是負(fù)面的詞匯。
我們用很簡(jiǎn)單的方法,比如你選top 100個(gè)詞匯,然后再選bottom 100個(gè)詞匯,就是褒義和貶抑的單詞200個(gè)詞左右。
下面就是讓計(jì)算機(jī)學(xué)習(xí)詞義,比如我們有100萬(wàn)條新聞和200個(gè)單詞,就是100w × 200大小的矩陣,這是單詞出現(xiàn)的次數(shù)或者出現(xiàn)的頻率。
按我們剛才的模型,出現(xiàn)的概率等于出現(xiàn)在百分百是正的文章概率是多少,以及出現(xiàn)在百分百是負(fù)的文章概率是多少的加權(quán)平均,這是常用的主題建模(topic modeling)。寫(xiě)成矩陣P大小為100萬(wàn)乘2,以及θ為2乘200。如果你給我每篇文章的情緒或者褒貶程度P,我就能夠把θ求出來(lái),即把詞義學(xué)習(xí)出來(lái)。
這個(gè)P如何學(xué)習(xí)?這個(gè)學(xué)習(xí)直接跟股票回報(bào)連在一塊。因?yàn)槲覀冇?00萬(wàn)篇文章,每一篇文章都有那天的回報(bào),所以你很容易看第i個(gè)文章回報(bào)的排名是多少。
這篇文章回報(bào)的排名就變成這篇文章情緒的排名。有了,我們就可以學(xué)習(xí)情緒θ,學(xué)習(xí)了情緒后,對(duì)未來(lái)新的文章就很容易給出一個(gè)分?jǐn)?shù)。已經(jīng)知道未來(lái)文章的200個(gè)詞的詞義,唯一不知道的是這篇文章能打幾分。因?yàn)槲覀冇蠱ultinomial Model,所以就很容易把
用極大似然法求出來(lái)。把它求出來(lái),這篇文章就有新的分?jǐn)?shù)。
總結(jié)一下,先用相關(guān)性篩選法把與情感相關(guān)的詞匯選出來(lái);然后對(duì)過(guò)去100萬(wàn)個(gè)文章,按他們回報(bào)的高低來(lái)給他們情緒打分;有了情緒打分P之后,就可以把詞義學(xué)習(xí)出來(lái);對(duì)未來(lái)新的文章就可以用Multinomial統(tǒng)計(jì)學(xué)習(xí)得到它相應(yīng)的分?jǐn)?shù)。
以下是具體的應(yīng)用,數(shù)據(jù)來(lái)自Dow Jones Newswires 1989-2017年,有650萬(wàn)條新聞。我們用前15年的數(shù)據(jù)作為學(xué)習(xí),其中10年數(shù)據(jù)作為訓(xùn)練集,5年數(shù)據(jù)作為驗(yàn)證集,選擇最優(yōu)參數(shù)。2004-2017年數(shù)據(jù)做為測(cè)試,使用第t天的情緒來(lái)預(yù)測(cè)第t + 1天的收益。
交易策略是什么?對(duì)每天每個(gè)新聞打分。我們買(mǎi)最高、最好的新聞的股票50只,做空分?jǐn)?shù)最低的50只股票。我們投資策略是Equal-Weighted或是Value-Weighted。最后是Zero net investment construction。
投資的效果是什么?黑線(xiàn)是我們剛剛畫(huà)的long-short equal-weighted表現(xiàn)。黃線(xiàn)是SP500,要低很多。仔細(xì)看L-S的return,Sharpe ratios (SR)是4.29,average return大概是33%,用Fama-French 5個(gè)因子加上momentum factor(FF5+MOM)的風(fēng)險(xiǎn)調(diào)整后的alphas大概是32,而且匯報(bào)與這些風(fēng)險(xiǎn)因子幾乎無(wú)關(guān)。
比較Dictionary方法與RavenPack,我們的方法更有效。
下圖是Speed of News Assimilation,如果你投得太晚,新聞的價(jià)值很快就沒(méi)有了。
總結(jié)如下:
IEEE Fellow王強(qiáng):在深度學(xué)習(xí)里使用監(jiān)督或者半監(jiān)督的模型,我也可以看到lowest數(shù)據(jù)或是非lowest數(shù)據(jù),您覺(jué)得PCA方式跟深度學(xué)習(xí)的方式,哪個(gè)更好用?
范劍青:這個(gè)提問(wèn)很好。PCA本身是線(xiàn)性的因子學(xué)習(xí)。做PCA的目的是想將相關(guān)的變量的共性跟特性分開(kāi)。對(duì)于很相關(guān)的變量,例如剛才把131個(gè)變量直接放在機(jī)器學(xué)習(xí)里,可能會(huì)包含太大的相關(guān)。
我們主要想講的是PCA將共性和個(gè)性分開(kāi),可以把136個(gè)變量放到深度學(xué)習(xí)里。深度學(xué)習(xí)可以作為很好的預(yù)測(cè)方式,但是如果變量很大相關(guān)的話(huà),可能預(yù)測(cè)效果并不好。PCA要學(xué)習(xí)的東西跟深度學(xué)習(xí)要學(xué)習(xí)的不完全一樣,可以互補(bǔ)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。