上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

本文作者：余菲

編輯：陳伊莉

2018-09-19 18:01

導(dǎo)語：白碩從大數(shù)據(jù)、自然語義、知識圖譜三方面，解析困局之因和破局之道。

雷鋒網(wǎng)AI金融了解到，伴隨著人工智能應(yīng)用于金融行業(yè)的熱潮，“高度同質(zhì)化”問題愈加凸顯：一方面很多公司推出的產(chǎn)品定位都很相似，另一方面風(fēng)投們對創(chuàng)業(yè)公司的技術(shù)期待也大同小異。人工智能在金融領(lǐng)域似乎已經(jīng)“人智義盡”——人工智能的語義處理、創(chuàng)意都走到了盡頭。

“這不是一個好事情”，在近期舉辦的“2018恒生技術(shù)開放日”，上海證券交易所前總工程師、中科院博士生導(dǎo)師、區(qū)塊鏈及人工智能領(lǐng)域?qū)＜野状T這樣說道。在他看來，正是種種思維誤區(qū)導(dǎo)致了這種“高度同質(zhì)化”。對此，白碩從大數(shù)據(jù)、自然語義、知識圖譜三方面，詳解了當(dāng)下行業(yè)內(nèi)存在的同質(zhì)化思維誤區(qū)，并逐一提出了不同見解。

雷鋒網(wǎng)AI金融對其演講內(nèi)容做了不改變原意的精編：

大數(shù)據(jù)：共享誤區(qū)

現(xiàn)在一提到大數(shù)據(jù)就是要匯聚、要共享，如果數(shù)據(jù)不從小規(guī)模變成大規(guī)模，不進行匯聚，都不好意思說自己在做大數(shù)據(jù)和人工智能。這其實是有誤區(qū)的。

其實很多應(yīng)用單位并不情愿把數(shù)據(jù)拿出來共享，可能是因為共享的收益有限，甚至沒什么好處。不敢共享，因為這些數(shù)據(jù)一旦共享出去，便不再為你所掌控。不能共享，因為會有監(jiān)管、政策、法律等方面的考慮。

這就在事實上形成了一些由邊界圍出來的數(shù)據(jù)藩籬，再者隨著中國人數(shù)據(jù)主權(quán)意識的覺醒，數(shù)據(jù)完全共享面臨的障礙短期內(nèi)較難消除。

這里有三種解決方案思路：

第一，交換模型。把自己一方數(shù)據(jù)訓(xùn)練出來的模型交換給另外一方，另外一方把原始數(shù)據(jù)訓(xùn)練出來的模型交換給我，不傳原始數(shù)據(jù)，而是傳模型，在傳模型的迭代過程中逐漸地實現(xiàn)聯(lián)合學(xué)習(xí)。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

第二，同態(tài)加密。神經(jīng)網(wǎng)涉及到線性組合，里面有加有乘，一種還不夠，需要兩種，有一種全同態(tài)，這兩種運算放在一起是否可以模擬成一個神經(jīng)網(wǎng)絡(luò)？也不夠，因為還有非線性，這個非線性不能用加和乘來做，就要用多項式逼近，一逼近就產(chǎn)生誤差，誤差會有怎樣的傳播和累計這個問題沒有得到解決。需要注意的是，同態(tài)的方式只能加密輸入，不能加密輸出，輸出必須是公開的。

第三，傳假數(shù)據(jù)。把自己一方的數(shù)據(jù)訓(xùn)練出模型，利用自己一方的模型生成同類型模型的假數(shù)據(jù)，把假數(shù)據(jù)傳給對方。在這方面，我參與了中科院計算所研究的工作，這項研究叫做“合作學(xué)習(xí)”，本身數(shù)據(jù)不是很復(fù)雜，就是數(shù)字的識別。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

左邊是樣本，不交叉的，標(biāo)簽互相不交叉，學(xué)習(xí)結(jié)果都會有提升，一方是100%，一方是0%，這邊是一方是90%是0、1、2、3、4，10%是5、6、7、8、9，傳假樣本的方式傳遞數(shù)據(jù)的量非常小，要達到接近95%以上的指標(biāo)，傳輸很少的數(shù)據(jù)就可以達到，我們用傳模型的方法和每次迭代升級假樣本的全集方法量非常大，現(xiàn)在用樣本池非常小。

自然語言：端對端學(xué)習(xí)存在四大問題

目前的主流是端到端嵌入學(xué)習(xí)，把詞嵌入到項鏈，到把整個句子和整個符號串嵌入到項鏈。而端到端存在四方面的問題：

首先，對語言的復(fù)雜結(jié)構(gòu)和承載能力還是未知數(shù)。

第二，如果單位用戶的需求復(fù)雜，靠這種學(xué)習(xí)能否應(yīng)變、馬上就改，尤其是涉及到客服、涉及到對外窗口，這個話明顯已經(jīng)錯了，想改對，靠學(xué)習(xí)改對是非常困難的。

第三，對領(lǐng)域知識和領(lǐng)域?qū)＜易饔玫妮p視，總覺得數(shù)據(jù)是完整的，覺得專家的知識經(jīng)驗好像可以繞開。這是不正確的，凡是自己有算法找你要數(shù)據(jù)，有數(shù)據(jù)就可以很好地合作，就可以解決痛點，這樣的思路是錯的。

第四，與結(jié)構(gòu)化的知識怎樣對接，這也是端到端嵌入方式的難點，不是說不可能，是有難點。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

我現(xiàn)在回歸符號來做，（上圖）左邊說“這只股票買過的都說太爛”，右邊說“這只股票買過的都說太虧”，誰虧？誰爛？，說虧了是指買過股票的人，說爛指向股票，這樣一個指向怎樣通過符號解析的方式做出來？在這方面我們做了很大的改進，有一個新的方法，能夠非常精準(zhǔn)地解析。

知識圖譜：過程性、動態(tài)性不夠

知識圖譜的問題是橫向共同面對的問題，大家都說知識圖譜可以做很多事情，但是同樣是知識圖譜，對知識圖譜這個概念的把握和應(yīng)用的時候使用的技術(shù)是千差萬別的。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

（上圖）左邊是知識圖譜發(fā)展的歷史，從描述語義的動機開始到為整個互聯(lián)網(wǎng)上的資源進行體系化的標(biāo)注，再到本體，再到目前這樣一種很豐富的技術(shù)站形態(tài)，而且這個技術(shù)站沒有其他的技術(shù)路線可以替代的，這是不容易的，但是不夠。

來看一下我們想要做的事情，目前我們把語義要素分成第一層實體、第二層屬性或/狀態(tài)，第三層關(guān)系、第四層事件，第五層時空，第六層場景，第七層主觀認知。知識圖譜能夠做上面三層和底下四層，我們把這些語義分成本體性、過程性、輔助性，最關(guān)鍵的是過程性，目前好多研究工作都沒有往這個方向去做，這是不正常的。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

最近我看哈工大發(fā)布了知識圖譜的版本，叫做“事理圖譜”，把剛才那個圖從上面三層向第四層推進了一步，這是事理圖譜在哈工大版本的呈現(xiàn)，就是事件和事件的推理關(guān)系、順承關(guān)系有了基礎(chǔ)的刻畫：

第一，需要帶參數(shù)。帶參數(shù)就是事件參與的這些實體兩兩之間有關(guān)聯(lián)，比如說前面這個事件是處罰事件，后面是整改事件，這兩個事件有交叉都共同指向這個原點，就是他們所共享的參數(shù)，如果不能在事件之間傳遞這個參數(shù)，就說明其實我們對事件的把握還很不夠。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？

第二，推理。大家都知道證監(jiān)會中從業(yè)人員的子女、配偶和子女的配偶是不允許買賣股票。在違規(guī)買賣事件中，違規(guī)的人和交易當(dāng)事人之間有一種親屬關(guān)系。（下圖）左邊是事理圖譜，右邊是傳統(tǒng)的知識圖譜，事理圖譜的推理過程反應(yīng)到右邊要讀取相關(guān)的數(shù)據(jù)，甚至還可能改變數(shù)據(jù)。比如說撤職，在右邊的知識圖譜里，張三可能有書記、主任、會長等一系列頭銜，這些是他的任職，當(dāng)左邊事理圖譜里一個事件發(fā)生了，就要在右邊把主任這個職位撤掉，我們認為這個事件是動態(tài)性的，左邊的事件激發(fā)、影響到右邊的關(guān)系，右邊的關(guān)系又會影響到左邊事件之間的順承關(guān)系、推理關(guān)系和推進。

上交所前總工白碩：如何破解AI金融領(lǐng)域里“人智義盡”的困局？