0
本文作者: 汪思穎 | 編輯:郭奕欣 | 2018-08-08 18:04 | 專題:SMP 2018 |
由中國中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦、哈爾濱工業(yè)大學(xué)承辦的第七屆全國社會(huì)媒體處理大會(huì)(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨(dú)家戰(zhàn)略媒體帶來合作報(bào)道。
SMP 專注于以社會(huì)媒體處理為主題的科學(xué)研究與工程開發(fā),為傳播社會(huì)媒體處理最新的學(xué)術(shù)研究與技術(shù)成果提供廣泛的交流平臺(tái),旨在構(gòu)建社會(huì)媒體處理領(lǐng)域的產(chǎn)學(xué)研生態(tài)圈,成為中國乃至世界社會(huì)媒體處理的風(fēng)向標(biāo)。
本屆 SMP 大會(huì)主席由哈爾濱工業(yè)大學(xué)教授劉挺與伊利諾伊大學(xué)芝加哥分校教授 Philip S. Yu 擔(dān)任,程序委員會(huì)主席由哈爾濱工業(yè)大學(xué)秦兵教授與清華大學(xué)劉知遠(yuǎn)副教授擔(dān)任。
會(huì)議期間并行舉行八大專題論壇,包括智能金融論壇、計(jì)算社會(huì)學(xué)論壇、情感分析論壇、數(shù)據(jù)挖掘論壇、計(jì)算傳播學(xué)論壇、智慧司法論壇、計(jì)算歷史學(xué)論壇、智能教育論壇。值得一提的是,智慧司法論壇和計(jì)算歷史學(xué)論壇都為今年新增,也邀請(qǐng)到了許多知名學(xué)者參與交流。
8 月 4 日上午,智慧司法論壇在友誼宮國際廳拉開帷幕。法律作為一種社會(huì)行為規(guī)范體系,是現(xiàn)代文明的制度基石。隨著自然語言處理技術(shù)的發(fā)展,并響應(yīng)國家「智慧司法」戰(zhàn)略,SMP 2018 會(huì)議第一次設(shè)立智慧司法論壇。
智能司法論壇由大連理工大學(xué)的林鴻飛教授擔(dān)任論壇主席,并邀請(qǐng)了五位主講嘉賓做了主題分享。
SMP 大會(huì)主席、哈爾濱工業(yè)大學(xué)人工智能研究院副院長劉挺教授受邀做智能司法論壇的開場致辭,他表示本屆 SMP 舉辦的八大論壇,有六個(gè)和人文社科緊密相關(guān),展現(xiàn)了社會(huì)媒體處理大會(huì)在信息技術(shù)與社會(huì)科學(xué)的交叉融合,而本次的智慧司法論壇可以算得上是國內(nèi)最早涉足這一領(lǐng)域討論的議程。隨著智能司法在人工智能學(xué)術(shù)界及法學(xué)界引起的重點(diǎn)關(guān)注,通過這一論壇各位老師的分享,希望大家在其中也能夠得到更多的啟示。
首位上臺(tái)演講的嘉賓是最高人民檢查院網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組辦公室副主任、檢察技術(shù)信息研究中心主任趙志剛,他的演講主題是《檢察信息化的昨天、今天和明天》。
「這是最好的時(shí)代,也是最壞的時(shí)代」,他表示,檢查機(jī)關(guān)正身處一場以互聯(lián)網(wǎng)為代表的新技術(shù)革命浪潮之中,用科學(xué)、用智慧做好檢察信息化,已經(jīng)成為了與時(shí)俱進(jìn)的必答題。
從 1991 年的數(shù)字檢務(wù) 1.0 的自動(dòng)化辦公室,到 2000 年的網(wǎng)絡(luò)檢務(wù) 2.0,2009 年的信息檢務(wù) 3.0,再到 2015 年 7 月的轉(zhuǎn)型升級(jí)期后,于 2017 年最高人民檢察院正式明確「智慧檢務(wù)」戰(zhàn)略,步入智慧檢務(wù) 4.0 的新時(shí)期,目前已建立包括司法辦案平臺(tái)、檢察辦公平臺(tái)、檢察決策支持平臺(tái)、隊(duì)伍管理平臺(tái)、檢務(wù)保障平臺(tái)及檢務(wù)公開與服務(wù)平臺(tái)為核心的電子檢務(wù)平臺(tái)。
他也從多個(gè)層面描述了檢查信息化:
從理論體系來看,2017 年 9 月的智檢會(huì)議召開,標(biāo)志智慧建伍理論的基本成型。從規(guī)劃體系層面,以《關(guān)于深化智慧檢務(wù)的意見》、《檢察大數(shù)據(jù)行動(dòng)指南》(一中心四體系)、《檢察人工智能創(chuàng)新指南》為代表的文件,目前已逐步完善戰(zhàn)略規(guī)劃的總體思路及相應(yīng)的體系建設(shè)。
從應(yīng)用體系層面,以「一主數(shù)輔多元」為指導(dǎo),初步形成檢查信息化應(yīng)用體系。啟動(dòng)檢察機(jī)關(guān)統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)的建設(shè),并探索以 SPAAs 為代表的智能輔助辦案系統(tǒng),此外還建設(shè)了如最高人民檢察院大數(shù)據(jù)決策分析平臺(tái)的可視化平臺(tái),滿足多樣化檢察需要。
從創(chuàng)新體系層面,通過高校、企業(yè)、檢察院的合作,建立實(shí)驗(yàn)管理中心、科研管理中心和培訓(xùn)管理中心,結(jié)合相應(yīng)的實(shí)驗(yàn)室建設(shè),檢察信息化經(jīng)歷了一個(gè)從無到有的過程。
他最后總結(jié),圍繞智慧檢務(wù)的應(yīng)用層、支撐層和數(shù)據(jù)層,檢察信息化也將在今后持續(xù)探索智慧檢務(wù)的研究。
清華大學(xué)計(jì)算機(jī)系劉知遠(yuǎn)副教授和涂存超博士后帶來了題為《面向法律智能的自然語言處理》的演講。
劉知遠(yuǎn)表示,自然語言是法律的載體,借助高質(zhì)量且形式豐富的文本數(shù)據(jù),基于法律文本的多樣需求,自然語言處理在法律領(lǐng)域有著眾多應(yīng)用前景,如智能案例檢索、文書自動(dòng)生成等。不過隨后他也指出,目前的比較多的研究都來源于法學(xué)院的相關(guān)研究。
隨后,涂存超介紹了幾種利用自然語言處理技術(shù)實(shí)現(xiàn)法律智能的研究內(nèi)容。
面向案例文書的判決預(yù)測:根據(jù)案件的案情描述,預(yù)測最終的判決結(jié)果。
拓?fù)浣Y(jié)構(gòu)預(yù)測的判決預(yù)測:通過法官的判案邏輯找到子任務(wù)之間的依賴關(guān)系。
引入?yún)^(qū)分性屬性的罪名預(yù)測,包括低頻罪名、混淆罪名的相應(yīng)預(yù)測:通過引入顯式的屬性,能對(duì)低頻罪名進(jìn)行基于屬性的判斷,對(duì)混淆罪名進(jìn)行區(qū)分;此外還能采用多任務(wù)學(xué)習(xí)及注意力機(jī)制訓(xùn)練基于屬性的罪名預(yù)測模型。
基于層次結(jié)構(gòu)的案由預(yù)測:通過刑事案由(罪名)和民事案由的層次結(jié)構(gòu),結(jié)合案由本身的文本信息,采用序列預(yù)測及基于案由名稱的注意力機(jī)制,訓(xùn)練相應(yīng)模型。
基于法律閱讀理解的判決預(yù)測:由于在民事案件中判決結(jié)果需要結(jié)合原告的具體訴求,可以建立基于閱讀理解機(jī)制,模仿「人帶著問題找答案」的閱讀理解行為進(jìn)行案件判決的預(yù)測。
他表示,法律智能技術(shù)有著豐富的研究和應(yīng)用前景,包括信息檢索、輔助判決等多個(gè)方向。作為一種具有高度專業(yè),富含知識(shí)的研究方向,法律智能未來仍然充滿挑戰(zhàn)。未來可以從「數(shù)據(jù)驅(qū)動(dòng)+法律知識(shí)」的結(jié)合入手,驅(qū)動(dòng)更多的場景應(yīng)用落地。
接下來北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所副教授馮巖松帶來了題為《面向法律文本的自然語言分析與理解》的演講。
他表示,法律與人工智能的淵源最早可以追溯到 20 世紀(jì) 70 年代,而隨著 80-90 年代專家系統(tǒng)的興起,如基于規(guī)則專家系統(tǒng)的輔助決策、改善法條制定為代表的研究工作也開始引起關(guān)注。
但當(dāng)人工智能與法律的結(jié)合蓬勃發(fā)展之時(shí),「專家系統(tǒng)」遇冷的大環(huán)境也讓這一結(jié)合領(lǐng)域不像之前那樣受到重視。但早期專家系統(tǒng)仍然留下了很多的寶貴經(jīng)驗(yàn),包括機(jī)器并不能代替法律實(shí)務(wù)工作者,應(yīng)該成為信息化中的重要組成,而技術(shù)也應(yīng)該以法律文書作為主要研究對(duì)象。
他提到,圍繞法律文書的研究,研究者主要還是以實(shí)用性出發(fā),以智能化為導(dǎo)向,引起學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。典型任務(wù)包括信息獲取與檢索、智能輔助決策及其它基礎(chǔ)支持(如卷宗管理、圖像語音文字識(shí)別等)。
從核心應(yīng)用、核心技術(shù)及法律文本資源入手,基于文本分析的法律智能在公安、檢察、法院、律師等方面有著廣泛研究。以代表會(huì)議 ICAIL 為例,這一會(huì)議起源于 1987 年,每兩年舉辦一次,從 2013 年開始近幾年的投稿方向來看,推理及說理、論辯的文章相對(duì)減少,而基礎(chǔ) NLP 分析,QA、IE、IR 以及判決預(yù)測等內(nèi)容則受到了越來越多的關(guān)注,但整體還是以法律文書的分析為主體研究方向。
他也強(qiáng)調(diào)了在應(yīng)用領(lǐng)域中,需要加強(qiáng)文本及法律推理及篇章、論辯分析兩個(gè)領(lǐng)域的關(guān)注。
總體而言,考慮到法律領(lǐng)域自身的復(fù)雜性,還有 AI 及 NLP 技術(shù)的局限性,目前要利用相應(yīng)技術(shù)進(jìn)行實(shí)踐大范圍應(yīng)用還存在巨大挑戰(zhàn)。如任務(wù)性能仍然有待提高的問題,模型的可解釋性問題,還有如何做到有理有據(jù)的問題。
他進(jìn)一步介紹了三個(gè)探索的相應(yīng)研究方向:
利用法律領(lǐng)域知識(shí)轉(zhuǎn)化為語義分析的結(jié)構(gòu)目標(biāo),邊閱讀邊理解,利用知識(shí)進(jìn)行深度解析;
結(jié)合強(qiáng)化學(xué)習(xí)等方法,研究者可以從文書中找出輔助決策的支持理由,進(jìn)行預(yù)測結(jié)果的解釋;
進(jìn)一步地,可以解決標(biāo)注數(shù)據(jù)有限的方法,精簡專家的投入。
從技術(shù)角度,他圍繞篇章理解、多源知識(shí)集成、可解釋性算法、多模態(tài)數(shù)據(jù)整合、標(biāo)注數(shù)據(jù)擴(kuò)展等方面,分享了自己對(duì)于如上問題可能的探索方向,做到對(duì)法律文本的深度理解。
最后一位演講嘉賓是科大訊飛 AI 研究院研究主管、司法認(rèn)知智能方向負(fù)責(zé)人、資深研究員李劍鋒,他的演講主題為《司法認(rèn)知智能研究實(shí)踐》。
他表示,從「能聽會(huì)說」到「能理解會(huì)思考」,經(jīng)過近 20 年的發(fā)展,科大訊飛已經(jīng)在語音合成、識(shí)別和評(píng)測上取得了領(lǐng)先表現(xiàn),在機(jī)器翻譯、閱讀理解和圖文識(shí)別也取得了階段性的成果。秉承「平臺(tái)+賽道」的發(fā)展戰(zhàn)略,科大訊飛通過人工智能開放平臺(tái),在教育、醫(yī)療、司法、政務(wù)等多個(gè)領(lǐng)域與中小企業(yè)進(jìn)行深入合作。
他分享了科大訊飛于司法行業(yè)的業(yè)務(wù)布局和相應(yīng)的技術(shù)研究及挑戰(zhàn)。
偵察辦案,筆錄轉(zhuǎn)寫
利用電話防詐騙預(yù)警系統(tǒng),訊飛基于海量話單、通話語音、應(yīng)用語音識(shí)別、意圖理解行技術(shù),實(shí)現(xiàn)詐騙電話自動(dòng)分類及危害程度的準(zhǔn)確評(píng)估。在筆錄環(huán)節(jié)中,可以解決復(fù)雜多人問話、遠(yuǎn)距識(shí)音等「效率」難題和審訊審查的「賦能」問題。
圖文識(shí)別,自動(dòng)編目
在圖文識(shí)別領(lǐng)域,哈工大訊飛聯(lián)合實(shí)驗(yàn)室通過設(shè)備輸入、文檔圖像、圖像預(yù)處理、版面分析、文字識(shí)別及結(jié)果輸出等環(huán)節(jié),進(jìn)行司法文書圖文識(shí)別;針對(duì)公安、檢察院、法院等電子卷宗材料,生成規(guī)范化、可閱讀的電子卷宗文檔材料。
證據(jù)分析,輔助量刑
證據(jù)分析包括查證事項(xiàng)抽取、問答對(duì)聚類查詢等內(nèi)容;而在輔助量刑中,則通過模型優(yōu)化改進(jìn)、提取案情要素、融入法律知識(shí)、構(gòu)建知識(shí)圖譜進(jìn)行量刑優(yōu)化。
自動(dòng)量刑探索
哈工大訊飛聯(lián)合實(shí)驗(yàn)室提出了 DRNN 模型,用 Recurrent單體代替卷積核。在保持與 CNN 類似的位置不變性前提下,增大窗口捕捉長距離信息,且不會(huì)增加參數(shù)數(shù)量,緩解了過擬合問題。這一工作發(fā)表在 ACL 2018 上。
為增加可解釋性,也為了進(jìn)一步提升模型效果,訊飛在抽取案情要素上也做了一些嘗試,能一定程度地降低案情的檢測錯(cuò)誤率。
哈工大訊飛聯(lián)合實(shí)驗(yàn)室還結(jié)合法官量刑步驟,構(gòu)建了相應(yīng)的量刑知識(shí)圖譜。目前,訊飛研發(fā)了一個(gè)基于自動(dòng)情節(jié)要素抽取的規(guī)則量刑器。
法律咨詢小程序
面向普通大眾,哈工大訊飛聯(lián)合實(shí)驗(yàn)室開發(fā)了一個(gè)法律咨詢小程序,對(duì)常見問題、法律知識(shí)提供內(nèi)容參考,并進(jìn)行律師推薦、案例分析與判決預(yù)測、類案推送等多項(xiàng)服務(wù)。
而面向司法認(rèn)知的智能挑戰(zhàn),他也指出了目前存在的幾個(gè)問題。
首先是,基于可解釋性、以往判決的不一致性及數(shù)據(jù)分布造成的模型偏差,目前的司法認(rèn)知需要突破統(tǒng)計(jì)模型的固有缺陷。
其次的一個(gè)問題是,如何有效使用行業(yè)知識(shí)?
他表示,要讓機(jī)器使用行業(yè)知識(shí),有兩種方式可以探索,一是基于符號(hào)體系的規(guī)則系統(tǒng);二是采用機(jī)器學(xué)習(xí)得到知識(shí)表示的統(tǒng)計(jì)模型。在實(shí)際應(yīng)用中,應(yīng)該靈活運(yùn)用兩種方法。
對(duì)于不同任務(wù),對(duì)知識(shí)的需求度也有著差異。結(jié)合任務(wù)、算法和知識(shí),未來可以從三個(gè)方面努力:
1)聯(lián)合業(yè)內(nèi)專家標(biāo)注數(shù)據(jù),積累數(shù)據(jù)知識(shí);2)進(jìn)一步提升算法能力;3)簡化任務(wù)定義,一個(gè)是發(fā)掘技術(shù)要求低,用戶價(jià)值大的應(yīng)用,其次是將任務(wù)分解、細(xì)化、分而治之。
第三個(gè)挑戰(zhàn)在于,技術(shù)水平與法官期望的距離。在這個(gè)過程中,可以打造人機(jī)協(xié)同的應(yīng)用場景,讓人與機(jī)器共同解決問題。
最后,林鴻飛教授為本次 SMP 2018 智慧司法論壇做總結(jié)。他表示,五位嘉賓以自然語言處理等技術(shù)應(yīng)用于智慧司法領(lǐng)域的切入點(diǎn),探討了其研究方法及所面臨的挑戰(zhàn),在未來,如何增加法官和檢察官的智慧,如何利用技術(shù)更好地服務(wù)于人類,做好信息技術(shù)與社會(huì)科學(xué)的融合,也將成為智慧司法不斷探索的重要目標(biāo)。
在上午的議程結(jié)束之后,下午迎來計(jì)算歷史學(xué)論壇。將計(jì)算技術(shù)用于人文和社會(huì)科學(xué)大數(shù)據(jù)的研究,已經(jīng)得到學(xué)界的共識(shí),這也是 SMP 首次舉辦計(jì)算歷史學(xué)論壇的原因。本次論壇邀請(qǐng)了來自計(jì)算機(jī)和歷史學(xué)領(lǐng)域的五位專家講者,論壇報(bào)告的內(nèi)容涉及自然語言處理技術(shù)在計(jì)算社會(huì)科學(xué)方面的最新動(dòng)態(tài)、基于文本挖掘技術(shù)的中國近代思想史研究、基于中國商業(yè)廣告數(shù)據(jù)庫對(duì)中國現(xiàn)代社會(huì)的建模以及中國歷代人物傳記資料庫(CBDB)的建設(shè)與使用。他們結(jié)合各自的領(lǐng)域和研究專長,探討了計(jì)算技術(shù)和歷史學(xué)可能產(chǎn)生的碰撞。
清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)做了主題為《語言表示學(xué)習(xí)與計(jì)算社會(huì)科學(xué)》的演講。
他表示自己將更多從計(jì)算機(jī)角度介紹自然語言處理對(duì)歷史學(xué)、計(jì)算社會(huì)科學(xué)的幫助。他談到語言是研究人類社會(huì)的重要角度,社會(huì)語言學(xué)、社會(huì)心理學(xué)領(lǐng)域提出一系列通過語言分析社會(huì)的理論,其中比較知名的有 LIWC(Linguistic Inquiry and Word Count)詞典。
他談到基于關(guān)鍵詞的計(jì)算社會(huì)科學(xué)研究,其中有幾個(gè)典型案例,如通過 Google Books 中歷年來使用「The United States is」和「The United States are」的統(tǒng)計(jì)趨勢圖,定量分析美國作為一個(gè)統(tǒng)一國家的概念是如何慢慢形成的,此外還有康奈爾大學(xué)等學(xué)者對(duì)用戶在在線社區(qū)中語言使用變遷模式的研究,他提到 WWW 2013 最佳論文《no country for old members:user lifecycle and linguistic change in online communities》。
隨后,他介紹了基于符號(hào)統(tǒng)計(jì)的計(jì)算社會(huì)科學(xué)研究。清華大學(xué)與新華社建立合作,利用關(guān)鍵詞抽取和可視化技術(shù)分析 2013 年「兩會(huì)」報(bào)告。此外,他還提到社會(huì)化標(biāo)簽,如用戶可以給在線資源標(biāo)注任意標(biāo)簽,標(biāo)簽雖然是用戶任意選取的,但它們作為整體體現(xiàn)了豐富的語義信息。這里的應(yīng)用有微博用戶職業(yè)預(yù)測、微博用戶重大事件監(jiān)測等。
前面這些案例,他總結(jié)為前表示學(xué)習(xí)時(shí)代,即基于符號(hào)的表示,他表示,這種方法非常簡單高效,但有一個(gè)重要缺陷,即無法區(qū)分任意兩個(gè)對(duì)象間的相關(guān)情況,在一定程度上限制了研究彈性。
他表示,現(xiàn)在迎來了基于深度學(xué)習(xí),新的分布式表示學(xué)習(xí)時(shí)代,這里的對(duì)象均被表示成稠密、實(shí)值、低維向量,他提到詞匯語義變遷研究以及利用分布式表示繪制詞匯大腦地圖,隨后他談到基于詞匯表示的人類偏見研究,2017 年 Science 上一篇論文指出,文本語料庫包含可重現(xiàn)且準(zhǔn)確的偏見印記,并能夠被機(jī)器習(xí)得。
此外,他也談到基于神經(jīng)網(wǎng)絡(luò)模型的抑郁檢測,如 EMNLP2017 最佳論文,利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)檢測在線社交媒體上的抑郁傾向用戶。
演講最后,他總結(jié)了分布式表示的優(yōu)勢——提供了比符號(hào)表示更加強(qiáng)大的計(jì)算能力,具有更強(qiáng)更深的洞察能力,其中的關(guān)鍵是看如何創(chuàng)造性地用起來。
第二位演講嘉賓是山東大學(xué)歷史文化學(xué)院副研究員邱偉云,他的演講主題是《詞匯、概念、話語:基于文本挖掘技術(shù)的中國近代思想史研究》。
演講伊始,他談到思想史的定義,英國著名歷史學(xué)家和政治學(xué)家史華慈表示,思想史是涉及人類整體的意識(shí)生活,即思維、感情、想象,以及各種感受的生活;思想史注重思想的出現(xiàn)與影響,強(qiáng)調(diào)思想與環(huán)境之間的關(guān)系。
隨后,他談到文本挖掘技術(shù)如何連接思想史研究。至于為什么研究的是中國近代,他表示,近代以前是文言文,語料相對(duì)較少,近代以后是白話文,語料相對(duì)較多。在上述考慮下,學(xué)者結(jié)合人文研究理論與計(jì)算機(jī)計(jì)算方法,建造出一個(gè)適合于進(jìn)行思想史研究的數(shù)據(jù)庫——中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫。這一數(shù)據(jù)庫前后經(jīng)歷三次演進(jìn),其內(nèi)容涵蓋史學(xué)、文學(xué)、美學(xué)。
為了創(chuàng)建該數(shù)據(jù)庫,搜羅的資料包括清末明初近代期刊、晚清檔案資料、清末明初士大夫著述等。金觀濤與劉青峰借鑒與挪用了人文領(lǐng)域中的關(guān)鍵詞與觀念史研究法,計(jì)算領(lǐng)域中的數(shù)據(jù)挖掘方法,從關(guān)鍵詞、語言學(xué)、語意分析等視角對(duì)數(shù)據(jù)庫的內(nèi)容與計(jì)算功能進(jìn)行調(diào)整。
而他也提到利用計(jì)算機(jī)方法,思想史數(shù)據(jù)庫進(jìn)行的若干研究,如分析《新青年》雜志如何推動(dòng)中國近代思想從傳統(tǒng)走向現(xiàn)代轉(zhuǎn)型, 具體包含對(duì)民主取代共和、真理取代公理的研究。
2008 年他們轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)研究,關(guān)鍵因素有兩點(diǎn):一是意識(shí)到 2008 年前仍是使用比較簡單的數(shù)字人文方法進(jìn)行研究,仍不可避免要先由人文學(xué)者做出主觀認(rèn)定,且只能觀察研究者自身覺得重要的關(guān)鍵詞分析結(jié)果。二是 2008 年后計(jì)算機(jī)學(xué)家與數(shù)學(xué)家陸續(xù)加入思想史研究團(tuán)隊(duì)。
之后,他重點(diǎn)探討了從人工到數(shù)據(jù)驅(qū)動(dòng)的成果:其一是在轉(zhuǎn)型期階段中,團(tuán)隊(duì)改采數(shù)據(jù)驅(qū)動(dòng)視野進(jìn)行研究,確實(shí)避開了過去從人工驅(qū)動(dòng)出發(fā)進(jìn)行理論假設(shè)所可能產(chǎn)生的偏頗;其二是透過數(shù)據(jù)驅(qū)動(dòng)從資料結(jié)構(gòu)中自動(dòng)找到資料結(jié)構(gòu)自身的觀念系統(tǒng),客觀呈現(xiàn)出觀念系統(tǒng)伴隨意識(shí)形態(tài)立場的變化情況,這正是轉(zhuǎn)型期階段觀念史研究數(shù)據(jù)庫方法的特點(diǎn)與長處所在。
未來,他們將在此基礎(chǔ)上進(jìn)行情感分析與思想史研究,如計(jì)算歷史學(xué)能否找到支配辛亥革命/五四運(yùn)動(dòng)發(fā)生的主要支配情感,能否找到引發(fā)時(shí)間的情感積量權(quán)重,預(yù)測事件的爆發(fā)時(shí)間點(diǎn)。
南京大學(xué)藝術(shù)學(xué)院副教授陳靜的兩位學(xué)生李夢琦、趙寅州介紹了 CCAA 中國商業(yè)廣告數(shù)據(jù)庫并帶來基于該數(shù)據(jù)庫的一系列分析。
據(jù)介紹,中國商業(yè)廣告數(shù)據(jù)庫(CCAA)是一個(gè)對(duì)于 1880 年代至 1940 年代期間出版的中國五個(gè)商業(yè)條約口岸城市報(bào)紙中離散廣告進(jìn)行元數(shù)據(jù)化處理和專業(yè)級(jí)圖像提取的擴(kuò)展集合,每一條廣告都是歷史的文本/圖像。
他們團(tuán)隊(duì)希望該數(shù)據(jù)庫能為文化學(xué)者、歷史學(xué)家等提供有用的廣告數(shù)據(jù),促進(jìn)理解商業(yè)文化生活是如何在 19 世紀(jì)末 20 世紀(jì)初進(jìn)入中國并滲透入歷史的。廣告使用了混雜了口語化的社會(huì)和科學(xué)文本的新的書寫語言,描繪了歷史的商品-人的關(guān)系,圖像化了商品導(dǎo)向的世界中的現(xiàn)代人形象。
他們在調(diào)查中發(fā)現(xiàn)三個(gè)主要問題:一是很多報(bào)紙沒有數(shù)字化,二是數(shù)字化的報(bào)紙和數(shù)據(jù)庫不是免費(fèi)開放的,三是已經(jīng)數(shù)字化好的報(bào)紙,廣告不如新聞重要,所以一般沒有做全文轉(zhuǎn)錄(除了標(biāo)題和日期)。
其中,考慮到的問題有三點(diǎn):
第一,現(xiàn)代中國語言中新詞的擴(kuò)散與廣泛使用是否與廣告圖像有關(guān);
第二,中國一種新型的售賣語言在什么時(shí)候開始出現(xiàn),以及怎樣出現(xiàn)的;
第三,統(tǒng)計(jì)方法能給商業(yè)文本/圖像中的圖像發(fā)生學(xué)帶來什么新發(fā)現(xiàn)。
研究圍繞三個(gè)問題展開:一是如何使圖像變得可讀,二是如何將圖像聯(lián)系到當(dāng)時(shí)的社會(huì)和文化語境;三是如何使圖像生產(chǎn)知識(shí),且使觀者意識(shí)到他們能夠理解并且習(xí)得這種知識(shí)。
之后,他們提到從數(shù)字化到知識(shí)的四個(gè)階段,一是數(shù)字化,二是標(biāo)注,三是文本挖掘,四是視覺呈現(xiàn)。之后,他們提到利用這一數(shù)據(jù)庫展開的相關(guān)研究,例如天津《大公報(bào)》醫(yī)藥廣告圖像描述分析,通過《申報(bào)》廣告圖像探討近代上海道路空間的形態(tài)及其發(fā)展。
最后一位上臺(tái)演講的嘉賓是來自北京大學(xué)中古史中心的博士生胡斌,他的演講主題是《中國歷代人物傳記資料庫(CBDB)的建設(shè)與使用》。
演講伊始,他介紹了 CBDB 基本狀況,這是一個(gè)關(guān)系型數(shù)據(jù)庫,涵蓋多個(gè)不同實(shí)體,如人名、時(shí)間、地址、著作、親屬關(guān)系、社會(huì)關(guān)系等。他表示,在關(guān)系型數(shù)據(jù)庫中,人物的數(shù)據(jù)資料存在于各種實(shí)體的互動(dòng)之中。大家可以點(diǎn)擊 https://projects.iq.harvard.edu/cbdb 訪問該數(shù)據(jù)庫。
他談到 CBDB 的發(fā)展歷程:
郝若貝教授在 1980 年代開始搜集數(shù)據(jù),他在 1996 年去世后,將其捐贈(zèng)哈佛-燕京學(xué)社;
2004 年,傅君勱教授重新編寫數(shù)據(jù)庫的結(jié)構(gòu);
2005 年,哈佛/中央研究院/北大開始共同開發(fā);
之后,該數(shù)據(jù)庫項(xiàng)目得到多項(xiàng)國內(nèi)外基金會(huì)的支持。
CBDB 現(xiàn)今包含 417382 人的數(shù)據(jù),質(zhì)量比較高的是唐宋數(shù)據(jù)。該數(shù)據(jù)庫的特色在人物關(guān)系上,除了人物基本屬性外,還記錄了人與人之間的交往關(guān)系,共包括 10 種關(guān)系類,34 種關(guān)系子類以及 241 種關(guān)系條目。
該數(shù)據(jù)庫涵蓋了三方面資料,一是原始材料,包括正史列傳、墓志銘、墓表等,二是當(dāng)代學(xué)者整理研究的傳記資料索引、郡守年表、方鎮(zhèn)年表等,三是來自其他數(shù)據(jù)庫的人物數(shù)據(jù),如明清婦女著作(McGill)、人名權(quán)威(史語所)。
他表示,這一數(shù)據(jù)庫是數(shù)字與人文領(lǐng)域的深度合作,數(shù)據(jù)庫的建立主要分為五個(gè)階段,一是光學(xué)字符識(shí)別(OCR),二是半人工校對(duì)數(shù)據(jù),三是分割要處理的數(shù)據(jù)點(diǎn),四是進(jìn)行消歧,五是對(duì)數(shù)據(jù)進(jìn)行編碼。
接下來,他提到利用 CBDB 的一些應(yīng)用,以下是利用該數(shù)據(jù)集可以做的三種分析:
一是群體分析、統(tǒng)計(jì)分析,相關(guān)案例有統(tǒng)計(jì) CBDB 數(shù)據(jù)集中 32270 人的死亡年齡,統(tǒng)計(jì) CBDB 資料中 3119 名女性的死亡年齡。
二是社會(huì)網(wǎng)絡(luò)分析,三是地理空間分析,例如分析 4730 個(gè)宋代進(jìn)士的籍貫。
在最后,他提到他們最近與北大信息管理系 DH 小組合作,進(jìn)行唐代人物遷徙圖以及相關(guān)探索。
他表示,計(jì)算歷史學(xué)對(duì)人文研究提供了如下幫助:幫助提出、驗(yàn)證,并呈現(xiàn)相對(duì)復(fù)雜、具體的歷史問題及其答案,快速地反復(fù)分析和呈現(xiàn)大批數(shù)據(jù)。這也是文獻(xiàn)的一種新的打開方式、查詢方式、呈現(xiàn)方式。
精彩的論壇已經(jīng)結(jié)束,留給大家的思考和啟發(fā)無處不在。SMP 2019 將在鵬城深圳召開,相信在新的一年將為大家?guī)砀嗑?。雷鋒網(wǎng)也將在現(xiàn)場為大家?guī)韺?shí)時(shí)報(bào)道。
本文圖片來源:哈工大 SCIR 李家琦 馮掌印,特此感謝。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章