0
本文作者: 周蕾 | 2020-06-02 19:58 |
近日,文因互聯(lián)創(chuàng)始人、CEO 鮑捷博士在雷鋒網(wǎng)公開(kāi)課上,以「RPA如何從1.0走到4.0時(shí)代」為題講述了流程自動(dòng)化的前世今生。
RPA從1.0到4.0,是對(duì)手、眼、腦和心的自動(dòng)化,實(shí)現(xiàn)對(duì)數(shù)據(jù)搬移、識(shí)別、機(jī)器自動(dòng)化管理和信任的建立,逐步替代初級(jí)和中級(jí)工作人員;與此同時(shí),是幫助組織從提高現(xiàn)有業(yè)務(wù)的效率到創(chuàng)造新業(yè)務(wù)、實(shí)現(xiàn)開(kāi)放生態(tài)互聯(lián)的過(guò)程。
關(guān)注公眾號(hào)「AI金融評(píng)論」后臺(tái)回復(fù)關(guān)鍵詞“聽(tīng)課”,收看本節(jié)課程視頻回放。
以下為鮑捷的分享內(nèi)容節(jié)選,雷鋒網(wǎng)做了不改變?cè)獾膭h減:
一開(kāi)始我起的題目叫「白領(lǐng)工人保命指南」,意思是怎么用知識(shí)工程(知識(shí)工程是人工智能大分支之一,另外兩個(gè)大分支是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。)這種技術(shù),來(lái)幫助白領(lǐng)工人實(shí)現(xiàn)自動(dòng)化工作——某種程度上也是“替代”他的工作。
過(guò)去這二十年時(shí)間里,我一直都在從事這種“邪惡”的研究——機(jī)器人流程自動(dòng)化。
知識(shí)產(chǎn)業(yè),是用人產(chǎn)生知識(shí),轉(zhuǎn)移知識(shí)的產(chǎn)業(yè),「白領(lǐng)工人」奮斗主戰(zhàn)場(chǎng)。其中,金融是最典型的,此外還有專(zhuān)業(yè)服務(wù)、政務(wù)服務(wù)、傳媒服務(wù)、教育服務(wù)等等。知識(shí)產(chǎn)業(yè)在經(jīng)濟(jì)中權(quán)重巨大,加在一起一共是占美國(guó)GDP的35%。美國(guó)的GDP里各種工業(yè)的占比是18%,知識(shí)產(chǎn)業(yè)在美國(guó)經(jīng)濟(jì)的比重是工業(yè)的兩倍。
工業(yè)早就從手工業(yè)變成了大工業(yè),但知識(shí)產(chǎn)業(yè)還沒(méi)有完成這個(gè)轉(zhuǎn)變,不管是教育、金融還是各種會(huì)計(jì)法律的服務(wù),都像是一種手工業(yè),依賴(lài)于個(gè)人的知識(shí)和人脈,而不是一種有體系可依賴(lài)的大型系統(tǒng),所以知識(shí)產(chǎn)業(yè)可以說(shuō)目前還沒(méi)有完成工業(yè)化。
目前知識(shí)產(chǎn)業(yè)在美國(guó)是7萬(wàn)億美元的規(guī)模,工業(yè)化一旦完成,我相信能夠創(chuàng)造的價(jià)值是不止于此的。它所能夠帶來(lái)的價(jià)值和沖擊,不夸張地說(shuō)是大于200年前的工業(yè)革命的,這可能是我們當(dāng)代最大的一個(gè)機(jī)會(huì)。
現(xiàn)在的知識(shí)產(chǎn)業(yè)是用人來(lái)產(chǎn)生知識(shí)和轉(zhuǎn)移知識(shí)的,我們的愿景是未來(lái)用機(jī)器來(lái)產(chǎn)生知識(shí)、轉(zhuǎn)移知識(shí)。
知識(shí)產(chǎn)業(yè)的自動(dòng)化,就需要用到知識(shí)技術(shù),這也是非常龐大的一個(gè)技術(shù)體系。當(dāng)然籠統(tǒng)來(lái)講,知識(shí)技術(shù)可以分為兩大類(lèi)技術(shù),一類(lèi)是產(chǎn)生知識(shí)的技術(shù),一類(lèi)是轉(zhuǎn)移知識(shí)的技術(shù),今天整個(gè)話題都是圍繞著這兩大類(lèi)技術(shù)來(lái)展開(kāi)的。
想要深刻理解RPA,就得明白流程自動(dòng)化處理的「知識(shí)」是什么。小到一次報(bào)稅,大到各機(jī)構(gòu)間的合作,蘊(yùn)藏著知識(shí)產(chǎn)業(yè)各階段的需求和知識(shí)技術(shù)的發(fā)展軌跡。
在計(jì)算機(jī)科學(xué)里,知識(shí)就是結(jié)構(gòu)(structure),或者說(shuō)它是事物(thing)之間的聯(lián)系(relation)。比如親屬關(guān)系,比如說(shuō)爸爸的爸爸是爺爺,是普適性的知識(shí)。我們身邊所有的事物之間的關(guān)系本質(zhì)上都是知識(shí)。比如一張發(fā)票,它的表格的框就是結(jié)構(gòu),所以我們遇到的每一張發(fā)票其實(shí)都是一個(gè)知識(shí)庫(kù)。
并非只有文本類(lèi)才算知識(shí),只要能夠事物之間產(chǎn)生關(guān)系的,它都是知識(shí)。
例如寶馬汽車(chē)的自動(dòng)車(chē)庫(kù)系統(tǒng),車(chē)子靠近車(chē)庫(kù)時(shí),車(chē)庫(kù)門(mén)會(huì)自動(dòng)打開(kāi)——車(chē)子和車(chē)庫(kù)這種靠近關(guān)系,本身就構(gòu)成了一個(gè)結(jié)構(gòu),這也是知識(shí),也會(huì)產(chǎn)生事件。稍后我們會(huì)看到,這也是流程自動(dòng)化的一個(gè)重要組成部分。
過(guò)去一年,我們聽(tīng)到RPA這個(gè)詞,但并不意味著流程自動(dòng)化是最近一年才出現(xiàn),它很久以前就已經(jīng)出現(xiàn),只是不叫這個(gè)名字。
流程自動(dòng)化技術(shù)其實(shí)在很久以前就有了,1.0 版本主要是自動(dòng)化手。
在十五到二十年前,新聞自動(dòng)化推送技術(shù)叫mash up。當(dāng)年社交網(wǎng)絡(luò)剛剛興起,每個(gè)社交網(wǎng)絡(luò)都會(huì)有一些API(應(yīng)用編程接口),有人就想怎么把這兩種不同的應(yīng)用串起來(lái),或者把不同應(yīng)用的數(shù)據(jù)源用機(jī)器自動(dòng)串起來(lái)自動(dòng)分發(fā)。RSS就是其中用于新聞的自動(dòng)分發(fā)的一個(gè)技術(shù)。
與此相關(guān)的,還有另一種類(lèi)型的應(yīng)用:美國(guó)的IFTTT網(wǎng)站(if this then that)。
如果你有個(gè)to do list,要在你的亞馬遜音箱上面來(lái)提醒你,做同步;或者你喜歡了一個(gè)spotify播放列表,要從video里面把歌曲剝離出來(lái),這些自動(dòng)化的任務(wù),由一個(gè)觸發(fā)器然后導(dǎo)致一個(gè)預(yù)定的動(dòng)作,這就是if this then that。
IFTTT剛剛被發(fā)明出來(lái)的時(shí)候,更多的是這種任務(wù):比如一條推特一旦滿(mǎn)足關(guān)鍵詞需求,就自動(dòng)轉(zhuǎn)發(fā)到Facebook。其實(shí)這也是一種to C的流程自動(dòng)化。
To B的也有很多,比如歷史上很有名的IBM Clio項(xiàng)目,1999年就開(kāi)始了。因?yàn)槠髽I(yè)內(nèi)部有很多數(shù)據(jù)壁壘,有很多不同的內(nèi)部IT系統(tǒng),系統(tǒng)背后又都有不同的數(shù)據(jù)庫(kù)。要想把這些數(shù)據(jù)庫(kù)打通,是很麻煩的。
所以IBM就起了這么一個(gè)項(xiàng)目:怎么能夠把不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)模式做自動(dòng)發(fā)現(xiàn)對(duì)齊,之后用統(tǒng)一數(shù)據(jù)查詢(xún),實(shí)現(xiàn)多數(shù)據(jù)源的數(shù)據(jù)集成自動(dòng)化,最終實(shí)現(xiàn)任務(wù)自動(dòng)化——這個(gè)問(wèn)題,到今天也沒(méi)有完全被解決掉。
剛才介紹了知識(shí)和流程自動(dòng)化這兩個(gè)核心概念,他們之間的關(guān)系是什么?如果我們想有流程的自動(dòng)化,就必須擁有機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù),即知識(shí)。然后才能用機(jī)器或者軟件代理來(lái)自動(dòng)化執(zhí)行任務(wù)。
這也是狹義RPA。
UiPath這樣的RPA公司,在美國(guó)剛開(kāi)始的時(shí)候其實(shí)就是做軟件代理的自動(dòng)化任務(wù)執(zhí)行。
在美國(guó)報(bào)稅,代發(fā)工資的公司ADP在每年年初會(huì)給寄工資單W-2,列明去年的收入、各項(xiàng)稅額等。稅表里的數(shù)據(jù)要挪到美國(guó)稅務(wù)局給的一張個(gè)人報(bào)稅表(1040),再把這個(gè)表導(dǎo)到各種報(bào)稅軟件,如TurboTax。人就需要做這樣一個(gè)應(yīng)用間的數(shù)據(jù)轉(zhuǎn)移。
之前都是我們自己,或者雇個(gè)會(huì)計(jì)幫你做,這就是用手來(lái)做應(yīng)用間的數(shù)據(jù)的轉(zhuǎn)移?,F(xiàn)在可以用RPA機(jī)器人來(lái)做。
在企業(yè)環(huán)境下,這件事也很重要,因?yàn)槠髽I(yè)內(nèi)部有很多不同的IT系統(tǒng)都需要被打通,比如說(shuō)CRM系統(tǒng)和內(nèi)部ERP系統(tǒng)怎么對(duì)接資源?它們可能都是不同廠商實(shí)現(xiàn)的,所以就需要用一些自動(dòng)化的數(shù)據(jù)扒取技術(shù)來(lái)實(shí)現(xiàn)。
這個(gè)技術(shù)并不是全新的,其實(shí)之前在很多其他地方已經(jīng)出現(xiàn)過(guò)了,比如90年代末的游戲外掛,后來(lái)有了更加先進(jìn)的軟件如按鍵精靈等。
互聯(lián)網(wǎng)公司的測(cè)試團(tuán)隊(duì)也在做類(lèi)似的事情,比如說(shuō)開(kāi)發(fā)網(wǎng)站,要測(cè)試所有使用路徑是否正常,達(dá)到預(yù)期結(jié)果。但這過(guò)程很復(fù)雜麻煩,可能要測(cè)試幾百個(gè)不同的路徑。
一般軟件的測(cè)試,只要把一些use case寫(xiě)進(jìn)代碼里,但是像這種Web的軟件測(cè)試要在瀏覽器里運(yùn)行,要從瀏覽器的頁(yè)面里面把數(shù)據(jù)抓出來(lái)、填進(jìn)去,所以最早為了解決這種外部的自動(dòng)測(cè)試問(wèn)題,就開(kāi)發(fā)了一系列的技術(shù)。
這里面引用的是Selenium,一個(gè)很常用的外部自動(dòng)化測(cè)試框架。如果你要做一個(gè)user login,寫(xiě)很少一段的Python代碼就可以做這件事情。
同樣地,你也可以分析頁(yè)面,可以讀取、抓取、填寫(xiě)數(shù)據(jù)。所以你會(huì)看到自動(dòng)測(cè)試的軟件跑起來(lái)的時(shí)候,這臺(tái)機(jī)器就好像著了魔一樣,鼠標(biāo)亂飛,一些數(shù)據(jù)自動(dòng)就被填進(jìn)去了。
現(xiàn)在的RPA技術(shù)其實(shí)就是從自動(dòng)化測(cè)試技術(shù)衍生出來(lái)的,這就是RPA的1.0時(shí)代:如何去自動(dòng)在不同的應(yīng)用之間做數(shù)據(jù)的轉(zhuǎn)移,這個(gè)應(yīng)用可能是windows上的桌面程序,也有可能是瀏覽器里的互聯(lián)網(wǎng)Web程序。
近兩年,RPA開(kāi)始進(jìn)入第二階段。
之前的1.0階段,所要移動(dòng)的數(shù)據(jù)基本是現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù),比如在兩個(gè)網(wǎng)頁(yè)之間傳數(shù)據(jù),數(shù)據(jù)已經(jīng)被結(jié)構(gòu)化了,只是它呈現(xiàn)的是所謂的網(wǎng)頁(yè)結(jié)構(gòu),或?qū)⒁延械目勺xXML、電子表格,轉(zhuǎn)到另外一個(gè)程序里。
但如果是PDF這種比較復(fù)雜的大量表格,或者新聞,招股說(shuō)明書(shū)、債券募集說(shuō)明書(shū)、信貸文件等,以及格式不復(fù)雜但內(nèi)容很復(fù)雜,比如法院判決書(shū),你要能夠在這里面進(jìn)行應(yīng)用之間的數(shù)據(jù)轉(zhuǎn)移,這就需要知識(shí)提取的技術(shù)。
簡(jiǎn)而言之,RPA 1.0時(shí)代,可以移動(dòng)原有的結(jié)構(gòu)化數(shù)據(jù)——RPA 2.0時(shí)代,可以生產(chǎn)結(jié)構(gòu)化數(shù)據(jù),移動(dòng)非結(jié)構(gòu)化數(shù)據(jù),這就是核心的區(qū)別。
這個(gè)過(guò)程,其實(shí)之前是咱們用實(shí)習(xí)生——或者叫小弟小妹科技——用一些比較初級(jí)的工作人員來(lái)做的。流程自動(dòng)化之后,RPA 1.0、2.0可以替代初級(jí)人員,這也是所謂的“加工已知的已知”:原來(lái)文件和表格有哪些數(shù)據(jù),我們非常忠實(shí)地把這些字符串給遷移過(guò)去。
上圖左邊的文本原文講到一個(gè)公司有信用危機(jī),這就需要提取核心內(nèi)容,比如公司出現(xiàn)的問(wèn)題,它跟其他相關(guān)聯(lián)的所謂實(shí)體,如上游公司、子公司,或者打官司的對(duì)手公司有什么關(guān)系?這樣就從一個(gè)非結(jié)構(gòu)化的文本變成了結(jié)構(gòu)化的三元組數(shù)據(jù)。
這也是我們過(guò)去這幾年之間為用戶(hù)做得最多的事情。我們跟證券交易所、一些銀行一直都在做這種金融監(jiān)管、信貸、資產(chǎn)管理領(lǐng)域中大量的文件自動(dòng)化處理,以前要幾個(gè)月時(shí)間才能處理完的招股說(shuō)明書(shū),現(xiàn)在10秒鐘之內(nèi)就可以自動(dòng)把幾百頁(yè)的內(nèi)容都提取出來(lái)。
在這個(gè)階段,就不僅僅是把數(shù)據(jù)原樣加工和轉(zhuǎn)移,而是自動(dòng)化業(yè)務(wù)知識(shí)。
比如金融監(jiān)管有合規(guī)的需求,交易所的合規(guī)文件非常多。要把里面所包含的業(yè)務(wù)知識(shí),轉(zhuǎn)化成機(jī)器可以執(zhí)行的業(yè)務(wù)規(guī)則,這不僅需要識(shí)別數(shù)據(jù)本身,而要知道數(shù)據(jù)背后隱藏的內(nèi)容,以及通過(guò)這些數(shù)據(jù)可推理出的結(jié)果。
所以,關(guān)鍵過(guò)程是如何讓機(jī)器挖掘這些關(guān)系,和自動(dòng)化的管理。從這個(gè)意義上來(lái)講,RPA 3.0就是自動(dòng)化腦的過(guò)程。一旦完成這一步,能夠替代的不僅僅是初級(jí)人員,還有一些中級(jí)人員。
這里兩大核心技術(shù),一是知識(shí)圖譜技術(shù),另一個(gè)是推理機(jī)技術(shù)。
知識(shí)圖譜的技術(shù),本質(zhì)上來(lái)說(shuō),就是說(shuō)如何發(fā)現(xiàn)未知的已知。有了數(shù)據(jù),可以推理出背后隱藏的關(guān)系。
比如說(shuō)張三是李四的哥哥,李四是王五的哥哥,可以推理出來(lái),張三是王五的哥哥,因?yàn)檫@是一個(gè)傳遞關(guān)系。這就是如何通過(guò)已知,發(fā)現(xiàn)未知的已知。
當(dāng)然在To B的應(yīng)用里,有更加專(zhuān)業(yè)的各種關(guān)系:比如通過(guò)各種隱藏的股權(quán)關(guān)系和已知的擔(dān)保關(guān)系,發(fā)現(xiàn)未知的擔(dān)保關(guān)系,可以通過(guò)股權(quán)網(wǎng)絡(luò)發(fā)現(xiàn)不同公司間的集團(tuán)派系;甚至還可以發(fā)現(xiàn)要隱藏的一致行動(dòng)人關(guān)系,比如兩個(gè)人關(guān)系很密切,他注冊(cè)了好幾個(gè)公司都在同一個(gè)地址里面,這兩個(gè)人可能潛在有非常強(qiáng)的相互關(guān)聯(lián)關(guān)系。
通過(guò)這些關(guān)系,可以發(fā)現(xiàn)很多隱藏的風(fēng)險(xiǎn),這就是知識(shí)圖譜技術(shù)能夠幫助我們做到的——讀懂?dāng)?shù)據(jù)不僅僅只是看到字面上的東西,而且還看到背后隱藏的關(guān)系。
但有時(shí)候知識(shí)圖譜技術(shù)不夠用。當(dāng)我們有了更加深刻的知識(shí),比如說(shuō)財(cái)務(wù)的勾稽關(guān)系、大量的BPM管理知識(shí),這需要用更加復(fù)雜的知識(shí)管理技術(shù),各種各樣的規(guī)則系統(tǒng)。
如果規(guī)則很少,只有十幾條,其實(shí)用什么系統(tǒng)都無(wú)所謂,隨便找一個(gè)本科畢業(yè)生都可以搞得定。但當(dāng)你有幾百條規(guī)則,再用規(guī)則編輯器,就很難管理了。當(dāng)規(guī)則有一千條,一般的團(tuán)隊(duì)基本已經(jīng)不能勝任這種任務(wù)。
通常做一個(gè)問(wèn)答系統(tǒng),既需要深度學(xué)習(xí)或自然語(yǔ)言處理的能力,也需要規(guī)則的能力。一般來(lái)說(shuō),管理1000條規(guī)則已經(jīng)很復(fù)雜了,這個(gè)系統(tǒng)就已經(jīng)看起來(lái)很聰明。但是還不夠,如果想讓系統(tǒng)看起來(lái)非常地魯棒和聰明,通常需要1萬(wàn)條左右的規(guī)則。
比如說(shuō)IBM的Watson系統(tǒng),它的前面寫(xiě)了大概8000條的規(guī)則——如果想搞定這1萬(wàn)條規(guī)則,需要“滅霸級(jí)”的能力,這是絕大多數(shù)的團(tuán)隊(duì)是不具備的。
如何管理大量規(guī)則?需要引入知識(shí)庫(kù)管理系統(tǒng),推理機(jī)是最核心的一環(huán),通過(guò)大量的規(guī)則,找到合理的結(jié)果并解釋。
這事的邏輯很簡(jiǎn)單,但為什么在工程上非常困難?因?yàn)椴豢赡苷业揭粋€(gè)自洽的邏輯系統(tǒng),不同的人寫(xiě)出的業(yè)務(wù)規(guī)則肯定會(huì)打架,如果推理機(jī)不能消解這種沖突,在現(xiàn)實(shí)中肯定沒(méi)用。
另外,也不可能把全部的知識(shí)庫(kù)都給結(jié)構(gòu)化或者規(guī)則化,很多是半結(jié)構(gòu)化的。怎么把結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí)整合在一起使用,降低總擁有成本,這也非常復(fù)雜。
最后推理出來(lái)一個(gè)結(jié)果,還要解釋它,比如法律判案、醫(yī)療診斷,都是基于大量的業(yè)務(wù)知識(shí),不能說(shuō)“系統(tǒng)它告訴我就是這樣,我也不知道是為什么”。比如判案,肯定是根據(jù)某一條結(jié)果、某一個(gè)法律,這就是叫可解釋的人工智能系統(tǒng),這是跟深度學(xué)習(xí)非常不一樣的地方。
所以演繹的能力、消解沖突的能力、結(jié)果的解釋能力加在一起,其實(shí)就是推理機(jī)最核心的幾個(gè)模塊。
當(dāng)然還有很多其他的模塊,比如推理加速。有了這些之后,我們就可以讓機(jī)器學(xué)會(huì)自動(dòng)管理,從而讓大規(guī)模業(yè)務(wù)知識(shí)的執(zhí)行自動(dòng)化,來(lái)實(shí)現(xiàn)輔助中級(jí)業(yè)務(wù)人員的能力。
銀行間協(xié)會(huì)的債券發(fā)行合規(guī)文件非常多,所以要構(gòu)造出大量這樣的業(yè)務(wù)規(guī)則系統(tǒng),每個(gè)節(jié)點(diǎn)上面都會(huì)讀取相應(yīng)的數(shù)據(jù),從而完成整個(gè)合規(guī)的檢查過(guò)程。
先提取公告,檢查是否含違規(guī)內(nèi)容,比如發(fā)行時(shí)間,業(yè)績(jī)預(yù)測(cè)符合此前預(yù)測(cè),重大合同是否滿(mǎn)足披露準(zhǔn)則等等。
上市公司公告有多少種?400種。IPO審核后要看多少個(gè)數(shù)據(jù)點(diǎn)?7000個(gè)。這些全部用人工來(lái)做,肯定做不完,所以一定要用機(jī)器來(lái)做。
一個(gè)監(jiān)管系統(tǒng)里面可以跑2500條規(guī)則,基于這些規(guī)則自動(dòng)做數(shù)據(jù)路由、分析、統(tǒng)計(jì),最后生成各種預(yù)警,發(fā)送給相應(yīng)的人,生成各種各樣的報(bào)表。這是一個(gè)非常復(fù)雜的業(yè)務(wù)流程,只有RPA 3.0時(shí)代的系統(tǒng)才能夠勝任。如果只有手工的規(guī)則編輯器,很難去滿(mǎn)足這樣的需求。
展望一下,其實(shí)RPA到了這個(gè)階段,以后要做的就不只是自動(dòng)化一些簡(jiǎn)單流程,實(shí)際上是要把企業(yè)的業(yè)務(wù)自動(dòng)化,或者企業(yè)有BPM、ERP、PLM、CRM系統(tǒng)……企業(yè)內(nèi)部各種不同的資源都會(huì)有一個(gè)管理系統(tǒng),這些管理系統(tǒng)現(xiàn)在背后都是數(shù)據(jù)庫(kù),未來(lái)則會(huì)是基于知識(shí)庫(kù)來(lái)進(jìn)行企業(yè)資源的調(diào)度。
例如CRM系統(tǒng)以前都是用關(guān)系數(shù)據(jù)庫(kù),現(xiàn)在越來(lái)越多用到圖數(shù)據(jù)庫(kù),BPM、SEM、供應(yīng)鏈系統(tǒng)也是一樣。越來(lái)越多圖譜的數(shù)據(jù),有越來(lái)越多的規(guī)則,和數(shù)據(jù)規(guī)則知識(shí)庫(kù),怎么把這些整合在一起?就變成了知識(shí)庫(kù)管理系統(tǒng)。
知識(shí)庫(kù)再加上推理機(jī),我認(rèn)為這可能是下一代的RPA系統(tǒng)最核心的技術(shù),就是怎么構(gòu)造出一個(gè)能夠通用于所有IT系統(tǒng)底層的知識(shí)庫(kù)管理系統(tǒng)。我相信,它會(huì)替代之前類(lèi)似Oracle這樣的數(shù)據(jù)庫(kù)管理系統(tǒng)的地位。
組織內(nèi)是完全信任的環(huán)境,而組織間是不完全信任環(huán)境,
前三個(gè)階段一直在講,組織內(nèi)部如何實(shí)現(xiàn)業(yè)務(wù)知識(shí)的產(chǎn)生自動(dòng)化和轉(zhuǎn)移自動(dòng)化。顯然,自動(dòng)化不會(huì)僅僅只限于組織內(nèi)部。
如果要在兩個(gè)組織之間構(gòu)造出這樣一個(gè)自動(dòng)化系統(tǒng),面臨的核心挑戰(zhàn)是:組織內(nèi)是完全信任的環(huán)境,而組織間是不被完全信任的。
在組織間建立自動(dòng)化信任機(jī)制,我們稱(chēng)為分布式信任技術(shù)。
為什么要用這種技術(shù)?以開(kāi)放銀行為例,未來(lái)的銀行其實(shí)是一堆API組合在一起的數(shù)據(jù)服務(wù),但要想構(gòu)造出這樣的分布式應(yīng)用,就必須建立起一個(gè)高度可信的工作環(huán)境。
有了這種分布式信任能力,就進(jìn)入了RPA的第4個(gè)階段——自動(dòng)化心,這也代表人和人之間的信任。
說(shuō)到分布式信任,大家肯定想到區(qū)塊鏈,其實(shí)它只是可追責(zé)性技術(shù)的一個(gè)分支。
此外,分布式信任還包括了信任度的電子化,比如說(shuō)電子身份、電子合同、電子發(fā)票等等,也包括了開(kāi)放調(diào)度系統(tǒng)技術(shù),還有服務(wù)的發(fā)現(xiàn)和注冊(cè)、服務(wù)的編排和集成,分發(fā)引擎等等……這些技術(shù)在十幾年前叫web service。
這個(gè)概念由圖靈獎(jiǎng)得主Tim Berners-Lee提出。
構(gòu)造一個(gè)大規(guī)模的協(xié)作系統(tǒng),很難事先阻止所有不軌行為。如果完全阻止,系統(tǒng)就非常沒(méi)有活力。只能是給每個(gè)人設(shè)定做事的合理范圍,如果做錯(cuò),產(chǎn)生不良后果,我們可以找你負(fù)責(zé),這就叫事后追責(zé)。
這個(gè)技術(shù)需要以下環(huán)節(jié):
忠實(shí)記錄數(shù)據(jù)處理和傳播的過(guò)程。這個(gè)現(xiàn)在是用區(qū)塊鏈來(lái)實(shí)現(xiàn)。十幾年前還沒(méi)有區(qū)塊鏈,Tim的實(shí)驗(yàn)室發(fā)明了一整套跟區(qū)塊鏈并行的技術(shù)來(lái)做。當(dāng)時(shí)我也參與了這個(gè)工作?,F(xiàn)在其實(shí)兩個(gè)技術(shù)已經(jīng)融合了。
擁有現(xiàn)場(chǎng)記錄后,還要取一手證據(jù)。如果發(fā)現(xiàn)問(wèn)題,要一步一步重建犯罪現(xiàn)場(chǎng),需要溯源圖譜技術(shù)(provenance)。
發(fā)現(xiàn)了問(wèn)題也收集到了證據(jù),必須建立起支撐結(jié)論的證據(jù)充分的完整鏈條,這就是證據(jù)推理技術(shù)(proof&justification)
以上環(huán)節(jié)加在一起,才是完整的可追責(zé)能力,這也是對(duì)現(xiàn)在區(qū)塊鏈的重要補(bǔ)充。
Tim Berners-Lee過(guò)去十幾年時(shí)間一直在促進(jìn)這種技術(shù)的成熟;這兩年在開(kāi)發(fā)SOLID框架,這是基于分布式的去中心化應(yīng)用,可以是結(jié)合知識(shí)圖譜和區(qū)塊鏈構(gòu)造一種可追責(zé)的分布式任務(wù)自動(dòng)化系統(tǒng)。
總結(jié)一下核心五大類(lèi)技術(shù):
頂層技術(shù):產(chǎn)生知識(shí),轉(zhuǎn)移知識(shí)。
產(chǎn)生知識(shí)分為:如何發(fā)現(xiàn)事物(知識(shí)提取技術(shù)),如何發(fā)現(xiàn)關(guān)系(知識(shí)圖譜技術(shù))。
轉(zhuǎn)移知識(shí)分為:組織內(nèi)、組織間轉(zhuǎn)移知識(shí)的技術(shù)。
組織內(nèi)分為:自動(dòng)化測(cè)試技術(shù)或RPA 1.0的技術(shù),推理機(jī)技術(shù)。
組織間轉(zhuǎn)移知識(shí)的技術(shù),就是分布式信任的基礎(chǔ)。
從RPA的四個(gè)階段來(lái)總結(jié):
1.0:自動(dòng)化手,基于自動(dòng)化測(cè)試技術(shù),從而實(shí)現(xiàn)數(shù)據(jù)搬移。
2.0:自動(dòng)化眼,實(shí)現(xiàn)數(shù)據(jù)識(shí)別——1.0和2.0結(jié)合,實(shí)現(xiàn)了對(duì)初級(jí)人員工作的替代。
3.0:自動(dòng)化腦,基于知識(shí)圖譜和推理機(jī)技術(shù),幫助我們進(jìn)行機(jī)器自動(dòng)化管理。
4.0:自動(dòng)化心(信任建立),加上3.0就是對(duì)中級(jí)人員的替代。
從另一個(gè)角度來(lái)劃分,前三個(gè)階段主要關(guān)注內(nèi)部自動(dòng)化調(diào)度;最后階段關(guān)注外部自動(dòng)化調(diào)度。
文因互聯(lián)當(dāng)前是關(guān)注在2.0和3.0。過(guò)去三年,我們一直圍繞著RPA 2.0的技術(shù),在做各種金融文檔的自動(dòng)化識(shí)別和流程自動(dòng)化。最近逐漸轉(zhuǎn)移到RPA 3.0的開(kāi)發(fā),即如何自動(dòng)化腦、大規(guī)模批量產(chǎn)生成千上萬(wàn)條規(guī)則和批量管理。
RPA 4.0,如何實(shí)現(xiàn)組織間的自動(dòng)化調(diào)度系統(tǒng),這也是我們今后兩三年內(nèi)最重要的一件事情。
最后也給出我的兩條建議:要么參與這一場(chǎng)自動(dòng)化的革命,從被機(jī)器取代轉(zhuǎn)為與機(jī)器協(xié)作;要么調(diào)整自己的方向,往未知的未知深耕,去發(fā)揮自己的創(chuàng)造力。
問(wèn):關(guān)于分布式信用平臺(tái),是不是和聯(lián)邦學(xué)習(xí)的聯(lián)合建模異曲同工?
鮑捷:基于我的理解,聯(lián)邦學(xué)習(xí)應(yīng)該是每一個(gè)不同的數(shù)據(jù)源,需要保護(hù)自身隱私,然后再自動(dòng)化、相當(dāng)于去隱私的環(huán)境下,來(lái)進(jìn)行一個(gè)集成的學(xué)習(xí)。
這個(gè)跟分布式信任應(yīng)該是在做不同的事情。分布式信任解決的是我如何信任一個(gè)數(shù)據(jù);聯(lián)邦學(xué)習(xí)解決的是我如何在不破壞隱私的情況下實(shí)現(xiàn)學(xué)習(xí)。這兩個(gè)應(yīng)該是互補(bǔ)的技術(shù)。當(dāng)然除了聯(lián)邦學(xué)習(xí)技術(shù),我認(rèn)為同態(tài)加密技術(shù)也是很重要的。
問(wèn):RPA感覺(jué)是NLP在推薦搜索更進(jìn)一步的應(yīng)用,比搜索推薦要難,搜索推薦的本質(zhì)還是關(guān)鍵詞匹配,talk的API就不止關(guān)鍵詞匹配了,要怎么理解文本中的實(shí)體和關(guān)系?
鮑捷:其實(shí)核心就在于傳統(tǒng)的NLP階段,我們要處理的都是字符串,要在字符串之間做一些對(duì)應(yīng)關(guān)系。
而在所謂的圖譜階段,我們所要處理的都是實(shí)體,每一個(gè)實(shí)體都是有UUID的,比如說(shuō)全國(guó)有多少個(gè)叫“王偉”的人,“王偉”是一個(gè)字符串,但是我們想?yún)^(qū)別不同的“王偉”,就需要給他UUID,這就是變成了實(shí)體。
所以說(shuō)在做實(shí)體的時(shí)候,我們要做的就不是關(guān)鍵詞匹配了,RPA其實(shí)從整體上來(lái)說(shuō)還是做實(shí)體的匹配。
問(wèn):NLP這些算法并不能達(dá)到百分之百成功的效果。如果是流程自動(dòng)化,對(duì)結(jié)果的準(zhǔn)確度要求應(yīng)該挺高的,想知道實(shí)際中如何平衡這種技術(shù)的局限性和業(yè)務(wù)的需求?
鮑捷:第一種方法,你這個(gè)系統(tǒng)如果要嚴(yán)格一點(diǎn),你可以降低recall,但是你提取出來(lái)給我的數(shù)據(jù),你要保證這個(gè)是正確的,可以用precision 和recall之間做一個(gè)交換。
另一種辦法就是人工加機(jī)器,這個(gè)機(jī)器先做一輪,然后人工審閱一輪。這也是絕大多數(shù)實(shí)施成功的案例里面最終用的方法,就是人工加上機(jī)器做一段初步的分析,再用校驗(yàn)人員來(lái)做后面的數(shù)據(jù)提升,特別是補(bǔ)漏。
其實(shí)還有其他的平衡,比如說(shuō)如果一部分確實(shí)是正確度不高的話,始終都不高,這部分可能我們就不追求它的自動(dòng)化了,放棄本身也是一種很好的做法。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。