0
雷鋒網(wǎng)AI金融了解到,伴隨著人工智能應(yīng)用于金融行業(yè)的熱潮,“高度同質(zhì)化”問題愈加凸顯:一方面很多公司推出的產(chǎn)品定位都很相似,另一方面風(fēng)投們對創(chuàng)業(yè)公司的技術(shù)期待也大同小異。人工智能在金融領(lǐng)域似乎已經(jīng)“人智義盡”——人工智能的語義處理、創(chuàng)意都走到了盡頭。
“這不是一個好事情”,在近期舉辦的“2018恒生技術(shù)開放日”,上海證券交易所前總工程師、中科院博士生導(dǎo)師、區(qū)塊鏈及人工智能領(lǐng)域?qū)<野状T這樣說道。在他看來,正是種種思維誤區(qū)導(dǎo)致了這種“高度同質(zhì)化”。對此,白碩從大數(shù)據(jù)、自然語義、知識圖譜三方面,詳解了當(dāng)下行業(yè)內(nèi)存在的同質(zhì)化思維誤區(qū),并逐一提出了不同見解。
雷鋒網(wǎng)AI金融對其演講內(nèi)容做了不改變原意的精編:
現(xiàn)在一提到大數(shù)據(jù)就是要匯聚、要共享,如果數(shù)據(jù)不從小規(guī)模變成大規(guī)模,不進行匯聚,都不好意思說自己在做大數(shù)據(jù)和人工智能。這其實是有誤區(qū)的。
其實很多應(yīng)用單位并不情愿把數(shù)據(jù)拿出來共享,可能是因為共享的收益有限,甚至沒什么好處。不敢共享,因為這些數(shù)據(jù)一旦共享出去,便不再為你所掌控。不能共享,因為會有監(jiān)管、政策、法律等方面的考慮。
這就在事實上形成了一些由邊界圍出來的數(shù)據(jù)藩籬,再者隨著中國人數(shù)據(jù)主權(quán)意識的覺醒,數(shù)據(jù)完全共享面臨的障礙短期內(nèi)較難消除。
這里有三種解決方案思路:
第一,交換模型。把自己一方數(shù)據(jù)訓(xùn)練出來的模型交換給另外一方,另外一方把原始數(shù)據(jù)訓(xùn)練出來的模型交換給我,不傳原始數(shù)據(jù),而是傳模型,在傳模型的迭代過程中逐漸地實現(xiàn)聯(lián)合學(xué)習(xí)。
第二,同態(tài)加密。神經(jīng)網(wǎng)涉及到線性組合,里面有加有乘,一種還不夠,需要兩種,有一種全同態(tài),這兩種運算放在一起是否可以模擬成一個神經(jīng)網(wǎng)絡(luò)?也不夠,因為還有非線性,這個非線性不能用加和乘來做,就要用多項式逼近,一逼近就產(chǎn)生誤差,誤差會有怎樣的傳播和累計這個問題沒有得到解決。需要注意的是,同態(tài)的方式只能加密輸入,不能加密輸出,輸出必須是公開的。
第三,傳假數(shù)據(jù)。把自己一方的數(shù)據(jù)訓(xùn)練出模型,利用自己一方的模型生成同類型模型的假數(shù)據(jù),把假數(shù)據(jù)傳給對方。在這方面,我參與了中科院計算所研究的工作,這項研究叫做“合作學(xué)習(xí)”,本身數(shù)據(jù)不是很復(fù)雜,就是數(shù)字的識別。
左邊是樣本,不交叉的,標(biāo)簽互相不交叉,學(xué)習(xí)結(jié)果都會有提升,一方是100%,一方是0%,這邊是一方是90%是0、1、2、3、4,10%是5、6、7、8、9,傳假樣本的方式傳遞數(shù)據(jù)的量非常小,要達到接近95%以上的指標(biāo),傳輸很少的數(shù)據(jù)就可以達到,我們用傳模型的方法和每次迭代升級假樣本的全集方法量非常大,現(xiàn)在用樣本池非常小。
目前的主流是端到端嵌入學(xué)習(xí),把詞嵌入到項鏈,到把整個句子和整個符號串嵌入到項鏈。而端到端存在四方面的問題:
首先,對語言的復(fù)雜結(jié)構(gòu)和承載能力還是未知數(shù)。
第二,如果單位用戶的需求復(fù)雜,靠這種學(xué)習(xí)能否應(yīng)變、馬上就改,尤其是涉及到客服、涉及到對外窗口,這個話明顯已經(jīng)錯了,想改對,靠學(xué)習(xí)改對是非常困難的。
第三,對領(lǐng)域知識和領(lǐng)域?qū)<易饔玫妮p視,總覺得數(shù)據(jù)是完整的,覺得專家的知識經(jīng)驗好像可以繞開。這是不正確的,凡是自己有算法找你要數(shù)據(jù),有數(shù)據(jù)就可以很好地合作,就可以解決痛點,這樣的思路是錯的。
第四,與結(jié)構(gòu)化的知識怎樣對接,這也是端到端嵌入方式的難點,不是說不可能,是有難點。
我現(xiàn)在回歸符號來做,(上圖)左邊說“這只股票買過的都說太爛”,右邊說“這只股票買過的都說太虧”,誰虧?誰爛?,說虧了是指買過股票的人,說爛指向股票,這樣一個指向怎樣通過符號解析的方式做出來?在這方面我們做了很大的改進,有一個新的方法,能夠非常精準(zhǔn)地解析。
知識圖譜的問題是橫向共同面對的問題,大家都說知識圖譜可以做很多事情,但是同樣是知識圖譜,對知識圖譜這個概念的把握和應(yīng)用的時候使用的技術(shù)是千差萬別的。
(上圖)左邊是知識圖譜發(fā)展的歷史,從描述語義的動機開始到為整個互聯(lián)網(wǎng)上的資源進行體系化的標(biāo)注,再到本體,再到目前這樣一種很豐富的技術(shù)站形態(tài),而且這個技術(shù)站沒有其他的技術(shù)路線可以替代的,這是不容易的,但是不夠。
來看一下我們想要做的事情,目前我們把語義要素分成第一層實體、第二層屬性或/狀態(tài),第三層關(guān)系、第四層事件,第五層時空,第六層場景,第七層主觀認知。知識圖譜能夠做上面三層和底下四層,我們把這些語義分成本體性、過程性、輔助性,最關(guān)鍵的是過程性,目前好多研究工作都沒有往這個方向去做,這是不正常的。
最近我看哈工大發(fā)布了知識圖譜的版本,叫做“事理圖譜”,把剛才那個圖從上面三層向第四層推進了一步,這是事理圖譜在哈工大版本的呈現(xiàn),就是事件和事件的推理關(guān)系、順承關(guān)系有了基礎(chǔ)的刻畫:
第一,需要帶參數(shù)。帶參數(shù)就是事件參與的這些實體兩兩之間有關(guān)聯(lián),比如說前面這個事件是處罰事件,后面是整改事件,這兩個事件有交叉都共同指向這個原點,就是他們所共享的參數(shù),如果不能在事件之間傳遞這個參數(shù),就說明其實我們對事件的把握還很不夠。
第二,推理。大家都知道證監(jiān)會中從業(yè)人員的子女、配偶和子女的配偶是不允許買賣股票。在違規(guī)買賣事件中,違規(guī)的人和交易當(dāng)事人之間有一種親屬關(guān)系。(下圖)左邊是事理圖譜,右邊是傳統(tǒng)的知識圖譜,事理圖譜的推理過程反應(yīng)到右邊要讀取相關(guān)的數(shù)據(jù),甚至還可能改變數(shù)據(jù)。比如說撤職,在右邊的知識圖譜里,張三可能有書記、主任、會長等一系列頭銜,這些是他的任職,當(dāng)左邊事理圖譜里一個事件發(fā)生了,就要在右邊把主任這個職位撤掉,我們認為這個事件是動態(tài)性的,左邊的事件激發(fā)、影響到右邊的關(guān)系,右邊的關(guān)系又會影響到左邊事件之間的順承關(guān)系、推理關(guān)系和推進。
第三,激發(fā)作用鏈。激發(fā)會有一個作用鏈,從違規(guī)到處罰、到整改,中間有一些對象是共享的,比如說違規(guī)的主體就是被處罰的主體,也是整改的主體。
所以,很多公司想利用知識圖譜技術(shù)去做行業(yè)的產(chǎn)業(yè)鏈分析、行業(yè)的基本面描述,但是在這個描述過程中如果不引入知識圖譜的動態(tài)性,事情就無法做到位。
(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。