0
雷鋒網(wǎng)AI金融了解到,伴隨著人工智能應(yīng)用于金融行業(yè)的熱潮,“高度同質(zhì)化”問(wèn)題愈加凸顯:一方面很多公司推出的產(chǎn)品定位都很相似,另一方面風(fēng)投們對(duì)創(chuàng)業(yè)公司的技術(shù)期待也大同小異。人工智能在金融領(lǐng)域似乎已經(jīng)“人智義盡”——人工智能的語(yǔ)義處理、創(chuàng)意都走到了盡頭。
“這不是一個(gè)好事情”,在近期舉辦的“2018恒生技術(shù)開(kāi)放日”,上海證券交易所前總工程師、中科院博士生導(dǎo)師、區(qū)塊鏈及人工智能領(lǐng)域?qū)<野状T這樣說(shuō)道。在他看來(lái),正是種種思維誤區(qū)導(dǎo)致了這種“高度同質(zhì)化”。對(duì)此,白碩從大數(shù)據(jù)、自然語(yǔ)義、知識(shí)圖譜三方面,詳解了當(dāng)下行業(yè)內(nèi)存在的同質(zhì)化思維誤區(qū),并逐一提出了不同見(jiàn)解。
雷鋒網(wǎng)AI金融對(duì)其演講內(nèi)容做了不改變?cè)獾木帲?/em>
現(xiàn)在一提到大數(shù)據(jù)就是要匯聚、要共享,如果數(shù)據(jù)不從小規(guī)模變成大規(guī)模,不進(jìn)行匯聚,都不好意思說(shuō)自己在做大數(shù)據(jù)和人工智能。這其實(shí)是有誤區(qū)的。
其實(shí)很多應(yīng)用單位并不情愿把數(shù)據(jù)拿出來(lái)共享,可能是因?yàn)楣蚕淼氖找嬗邢?,甚至沒(méi)什么好處。不敢共享,因?yàn)檫@些數(shù)據(jù)一旦共享出去,便不再為你所掌控。不能共享,因?yàn)闀?huì)有監(jiān)管、政策、法律等方面的考慮。
這就在事實(shí)上形成了一些由邊界圍出來(lái)的數(shù)據(jù)藩籬,再者隨著中國(guó)人數(shù)據(jù)主權(quán)意識(shí)的覺(jué)醒,數(shù)據(jù)完全共享面臨的障礙短期內(nèi)較難消除。
這里有三種解決方案思路:
第一,交換模型。把自己一方數(shù)據(jù)訓(xùn)練出來(lái)的模型交換給另外一方,另外一方把原始數(shù)據(jù)訓(xùn)練出來(lái)的模型交換給我,不傳原始數(shù)據(jù),而是傳模型,在傳模型的迭代過(guò)程中逐漸地實(shí)現(xiàn)聯(lián)合學(xué)習(xí)。
第二,同態(tài)加密。神經(jīng)網(wǎng)涉及到線性組合,里面有加有乘,一種還不夠,需要兩種,有一種全同態(tài),這兩種運(yùn)算放在一起是否可以模擬成一個(gè)神經(jīng)網(wǎng)絡(luò)?也不夠,因?yàn)檫€有非線性,這個(gè)非線性不能用加和乘來(lái)做,就要用多項(xiàng)式逼近,一逼近就產(chǎn)生誤差,誤差會(huì)有怎樣的傳播和累計(jì)這個(gè)問(wèn)題沒(méi)有得到解決。需要注意的是,同態(tài)的方式只能加密輸入,不能加密輸出,輸出必須是公開(kāi)的。
第三,傳假數(shù)據(jù)。把自己一方的數(shù)據(jù)訓(xùn)練出模型,利用自己一方的模型生成同類型模型的假數(shù)據(jù),把假數(shù)據(jù)傳給對(duì)方。在這方面,我參與了中科院計(jì)算所研究的工作,這項(xiàng)研究叫做“合作學(xué)習(xí)”,本身數(shù)據(jù)不是很復(fù)雜,就是數(shù)字的識(shí)別。
左邊是樣本,不交叉的,標(biāo)簽互相不交叉,學(xué)習(xí)結(jié)果都會(huì)有提升,一方是100%,一方是0%,這邊是一方是90%是0、1、2、3、4,10%是5、6、7、8、9,傳假樣本的方式傳遞數(shù)據(jù)的量非常小,要達(dá)到接近95%以上的指標(biāo),傳輸很少的數(shù)據(jù)就可以達(dá)到,我們用傳模型的方法和每次迭代升級(jí)假樣本的全集方法量非常大,現(xiàn)在用樣本池非常小。
目前的主流是端到端嵌入學(xué)習(xí),把詞嵌入到項(xiàng)鏈,到把整個(gè)句子和整個(gè)符號(hào)串嵌入到項(xiàng)鏈。而端到端存在四方面的問(wèn)題:
首先,對(duì)語(yǔ)言的復(fù)雜結(jié)構(gòu)和承載能力還是未知數(shù)。
第二,如果單位用戶的需求復(fù)雜,靠這種學(xué)習(xí)能否應(yīng)變、馬上就改,尤其是涉及到客服、涉及到對(duì)外窗口,這個(gè)話明顯已經(jīng)錯(cuò)了,想改對(duì),靠學(xué)習(xí)改對(duì)是非常困難的。
第三,對(duì)領(lǐng)域知識(shí)和領(lǐng)域?qū)<易饔玫妮p視,總覺(jué)得數(shù)據(jù)是完整的,覺(jué)得專家的知識(shí)經(jīng)驗(yàn)好像可以繞開(kāi)。這是不正確的,凡是自己有算法找你要數(shù)據(jù),有數(shù)據(jù)就可以很好地合作,就可以解決痛點(diǎn),這樣的思路是錯(cuò)的。
第四,與結(jié)構(gòu)化的知識(shí)怎樣對(duì)接,這也是端到端嵌入方式的難點(diǎn),不是說(shuō)不可能,是有難點(diǎn)。
我現(xiàn)在回歸符號(hào)來(lái)做,(上圖)左邊說(shuō)“這只股票買過(guò)的都說(shuō)太爛”,右邊說(shuō)“這只股票買過(guò)的都說(shuō)太虧”,誰(shuí)虧?誰(shuí)爛?,說(shuō)虧了是指買過(guò)股票的人,說(shuō)爛指向股票,這樣一個(gè)指向怎樣通過(guò)符號(hào)解析的方式做出來(lái)?在這方面我們做了很大的改進(jìn),有一個(gè)新的方法,能夠非常精準(zhǔn)地解析。
知識(shí)圖譜的問(wèn)題是橫向共同面對(duì)的問(wèn)題,大家都說(shuō)知識(shí)圖譜可以做很多事情,但是同樣是知識(shí)圖譜,對(duì)知識(shí)圖譜這個(gè)概念的把握和應(yīng)用的時(shí)候使用的技術(shù)是千差萬(wàn)別的。
(上圖)左邊是知識(shí)圖譜發(fā)展的歷史,從描述語(yǔ)義的動(dòng)機(jī)開(kāi)始到為整個(gè)互聯(lián)網(wǎng)上的資源進(jìn)行體系化的標(biāo)注,再到本體,再到目前這樣一種很豐富的技術(shù)站形態(tài),而且這個(gè)技術(shù)站沒(méi)有其他的技術(shù)路線可以替代的,這是不容易的,但是不夠。
來(lái)看一下我們想要做的事情,目前我們把語(yǔ)義要素分成第一層實(shí)體、第二層屬性或/狀態(tài),第三層關(guān)系、第四層事件,第五層時(shí)空,第六層場(chǎng)景,第七層主觀認(rèn)知。知識(shí)圖譜能夠做上面三層和底下四層,我們把這些語(yǔ)義分成本體性、過(guò)程性、輔助性,最關(guān)鍵的是過(guò)程性,目前好多研究工作都沒(méi)有往這個(gè)方向去做,這是不正常的。
最近我看哈工大發(fā)布了知識(shí)圖譜的版本,叫做“事理圖譜”,把剛才那個(gè)圖從上面三層向第四層推進(jìn)了一步,這是事理圖譜在哈工大版本的呈現(xiàn),就是事件和事件的推理關(guān)系、順承關(guān)系有了基礎(chǔ)的刻畫(huà):
第一,需要帶參數(shù)。帶參數(shù)就是事件參與的這些實(shí)體兩兩之間有關(guān)聯(lián),比如說(shuō)前面這個(gè)事件是處罰事件,后面是整改事件,這兩個(gè)事件有交叉都共同指向這個(gè)原點(diǎn),就是他們所共享的參數(shù),如果不能在事件之間傳遞這個(gè)參數(shù),就說(shuō)明其實(shí)我們對(duì)事件的把握還很不夠。
第二,推理。大家都知道證監(jiān)會(huì)中從業(yè)人員的子女、配偶和子女的配偶是不允許買賣股票。在違規(guī)買賣事件中,違規(guī)的人和交易當(dāng)事人之間有一種親屬關(guān)系。(下圖)左邊是事理圖譜,右邊是傳統(tǒng)的知識(shí)圖譜,事理圖譜的推理過(guò)程反應(yīng)到右邊要讀取相關(guān)的數(shù)據(jù),甚至還可能改變數(shù)據(jù)。比如說(shuō)撤職,在右邊的知識(shí)圖譜里,張三可能有書(shū)記、主任、會(huì)長(zhǎng)等一系列頭銜,這些是他的任職,當(dāng)左邊事理圖譜里一個(gè)事件發(fā)生了,就要在右邊把主任這個(gè)職位撤掉,我們認(rèn)為這個(gè)事件是動(dòng)態(tài)性的,左邊的事件激發(fā)、影響到右邊的關(guān)系,右邊的關(guān)系又會(huì)影響到左邊事件之間的順承關(guān)系、推理關(guān)系和推進(jìn)。
第三,激發(fā)作用鏈。激發(fā)會(huì)有一個(gè)作用鏈,從違規(guī)到處罰、到整改,中間有一些對(duì)象是共享的,比如說(shuō)違規(guī)的主體就是被處罰的主體,也是整改的主體。
所以,很多公司想利用知識(shí)圖譜技術(shù)去做行業(yè)的產(chǎn)業(yè)鏈分析、行業(yè)的基本面描述,但是在這個(gè)描述過(guò)程中如果不引入知識(shí)圖譜的動(dòng)態(tài)性,事情就無(wú)法做到位。
(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。