0
本文作者: 汪思穎 | 編輯:郭奕欣 | 2018-08-04 20:48 | 專題:SMP 2018 |
由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦、哈爾濱工業(yè)大學(xué)承辦的第七屆全國(guó)社會(huì)媒體處理大會(huì)(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨(dú)家戰(zhàn)略媒體帶來合作報(bào)道。SMP 專注于以社會(huì)媒體處理為主題的科學(xué)研究與工程開發(fā),為傳播社會(huì)媒體處理最新的學(xué)術(shù)研究與技術(shù)成果提供廣泛的交流平臺(tái),旨在構(gòu)建社會(huì)媒體處理領(lǐng)域的產(chǎn)學(xué)研生態(tài)圈,成為中國(guó)乃至世界社會(huì)媒體處理的風(fēng)向標(biāo)。
本屆 SMP 大會(huì)主席由哈爾濱工業(yè)大學(xué)教授劉挺與伊利諾伊大學(xué)芝加哥分校教授 Philip S. Yu 擔(dān)任,程序委員會(huì)主席由哈爾濱工業(yè)大學(xué)秦兵教授與清華大學(xué)劉知遠(yuǎn)副教授擔(dān)任。SMP 2018 的六位特邀報(bào)告嘉賓包括:李宇明(北京語(yǔ)言大學(xué))、林學(xué)民(澳大利亞新南威爾士大學(xué))、林鴻飛(大連理工大學(xué))、張洪忠(北京師范大學(xué))、胡小華(美國(guó)德雷賽爾大學(xué))、李兵(中央財(cái)經(jīng)大學(xué))。
開幕式于 8 月 2 日上午隆重召開,開幕式之后是四場(chǎng)特邀報(bào)告,涉及到世界知識(shí)的中文表達(dá)、圖數(shù)據(jù)分析、幽默計(jì)算、社交網(wǎng)絡(luò)中的 AI 機(jī)器人。
第一位特邀報(bào)告嘉賓是北京語(yǔ)言大學(xué)語(yǔ)言資源高精尖創(chuàng)新中心主任李宇明教授,他的報(bào)告題為《世界知識(shí)的中文表達(dá)問題》。
報(bào)告伊始,他表示,我國(guó)面臨著兩個(gè)問題:向世界講好中國(guó)故事和向中國(guó)講好世界故事,這兩個(gè)問題互有關(guān)聯(lián),而在今天將重點(diǎn)討論世界知識(shí)的中文表達(dá),即向中國(guó)講好世界故事。
他提到中文在國(guó)際學(xué)界「邊緣化」的問題,通過對(duì) 2006-2015 年全世界各語(yǔ)種發(fā)表論文情況分析,發(fā)現(xiàn) SCI 論文中中文占比僅 0.59%,在所有語(yǔ)言中排在第三位,在 SSCI 論文中,中文沒有進(jìn)入前 10 位。
這時(shí)候,主要有三個(gè)應(yīng)對(duì)之策。
其一是全民學(xué)英語(yǔ),但是用外語(yǔ)實(shí)現(xiàn)知識(shí)獲取是有問題的。不可能人人都把一門外語(yǔ)學(xué)好,想要將英語(yǔ)達(dá)到母語(yǔ)水平幾乎不可能。此外,知識(shí)分類越來越細(xì),不同領(lǐng)域的知識(shí)鴻溝越來越深,通過英語(yǔ)直接閱讀了解多方面科技知識(shí)難度極大,同時(shí)這種方法減少了使用漢語(yǔ)表達(dá)現(xiàn)代科技知識(shí)的機(jī)會(huì)。
其二是機(jī)器翻譯,讓機(jī)器把世界的知識(shí)都翻譯成中文,供國(guó)人使用。
他表示,隨著信息技術(shù)的發(fā)展,機(jī)器翻譯在不久的將來有望實(shí)現(xiàn)這一目標(biāo)。但這時(shí)候,為中國(guó)人獲取信息而設(shè)計(jì)的翻譯系統(tǒng),翻譯的軸心語(yǔ)必當(dāng)是中文。此外,中國(guó)必須解決知識(shí)源頭問題,必須建立中國(guó)知識(shí)庫(kù)存的共同體。
但機(jī)器翻譯也存在「后遺癥」,如知識(shí)獲取永遠(yuǎn)「慢半拍」,要與「知識(shí)源」保持良好關(guān)系,同時(shí)也容易導(dǎo)致原創(chuàng)知識(shí)產(chǎn)權(quán)缺失。
這時(shí)候,應(yīng)對(duì)之策三是提升中文刊物聲望,這時(shí)候需要力挺中文文本的學(xué)術(shù)評(píng)價(jià)體系,他強(qiáng)調(diào),用外文提升中國(guó)學(xué)術(shù)界的國(guó)際地位是策略,提升中文的國(guó)際學(xué)術(shù)地位才是根本,需要提倡科研成果中文首發(fā)。
最后他對(duì)自己的報(bào)告內(nèi)容做出總結(jié),他表示,解決世界知識(shí)的中文表達(dá)問題十分不易,需要有耐心、有恒心、有信心,國(guó)家和知識(shí)界須有危機(jī)意識(shí),更要通過政策支持建立「中文自信」的學(xué)術(shù)評(píng)價(jià)體系。
澳大利亞新南威爾士大學(xué)的林學(xué)民教授做了題為《Towards Big Graph Processing: Applications, Challenges and Advances》的特邀報(bào)告。
他首先介紹了圖數(shù)據(jù)在金融詐騙檢測(cè)、產(chǎn)品推薦、投資分析、零售服務(wù)、反洗錢、網(wǎng)絡(luò)安全等多個(gè)領(lǐng)域的廣泛應(yīng)用,并以 k-Core、k-Truss、k-Edge Connected、k-Vertex Connected 等多種算法為例,結(jié)合 ICDE 2016 最佳論文《I/O Efficient Core Graph Decomposition at Web Scale》,SIGMOD 2015 年《Index-based Optimal Algorithms for Computing Steiner Components with Maximum Connectivity》等論文,闡述了 Cohesive Subgraph 的相應(yīng)定義及核心思想。
結(jié)合上述算法,他介紹了兩個(gè)領(lǐng)域的研究探索,一個(gè)是給定社交網(wǎng)絡(luò),判斷對(duì)應(yīng)的核心用戶在留存及離開時(shí),對(duì)于團(tuán)體產(chǎn)生的影響分析;另一個(gè)是結(jié)合子圖搜索研究以社交網(wǎng)絡(luò)為代表的多維屬性,并讓圖表在每個(gè)維度上都呈現(xiàn)稠密性。
結(jié)合與多家知名企業(yè)及團(tuán)隊(duì)的合作,他也展現(xiàn)了 Cohesive Subgraph 在不同領(lǐng)域上的應(yīng)用,比如在華為公有云上實(shí)現(xiàn)人物識(shí)別、社區(qū)發(fā)現(xiàn)及好友推薦等功能,并將其延伸到時(shí)間維度上;此外,他們也與阿里巴巴合作構(gòu)建 FLASH Query Language、Biclique 欺詐檢測(cè)及 RT Cycle 檢測(cè),在相應(yīng)的電商業(yè)務(wù)、金融業(yè)務(wù)上實(shí)現(xiàn)毫秒級(jí)應(yīng)用。
隨后,大連理工大學(xué)的林鴻飛教授帶來令全場(chǎng)笑聲不斷的特邀報(bào)告《幽默計(jì)算探討》。
林老師介紹幽默從通俗層面講,形容的是有趣或可笑且意味深長(zhǎng)的內(nèi)容,而理論定義則是產(chǎn)生于對(duì)于同一陳述兩種不同解釋框架的混合,是期望與實(shí)際結(jié)果之間的差異、沖突或不協(xié)調(diào)。
圍繞幽默點(diǎn)定義及相應(yīng)設(shè)計(jì),他闡述了確定幽默強(qiáng)度的基本原則,包括數(shù)量、表達(dá)方式的間接性、遞進(jìn)性、雙關(guān)語(yǔ)成分及因果關(guān)系等五大方面。隨后,他借助大量的例子,介紹了言語(yǔ)幽默、指稱幽默等類別,并結(jié)合幽默的相關(guān)理論背景引出幽默計(jì)算框架:以認(rèn)知語(yǔ)言學(xué)、情感圖譜、自然語(yǔ)言處理為技術(shù)基礎(chǔ),以雙關(guān)、諧音、隱喻、反諷為表達(dá)方式;以笑話、相聲、喜劇、歇后語(yǔ)為呈現(xiàn)載體;最終劃分為幽默識(shí)別、笑點(diǎn)識(shí)別、幽默等級(jí)、幽默理解及幽默生成等應(yīng)用領(lǐng)域。
與之相應(yīng)地,他分別介紹了以 SemEval 2017 Task6 為代表的幽默等級(jí)識(shí)別,以 SemEval 2017 Task7 為代表的雙關(guān)語(yǔ)識(shí)別、定位與推斷,以 CCL2018 任務(wù) 2 為代表的中文隱喻識(shí)別與情感分析,以 CCL2018 任務(wù) 4 為代表的中文幽默計(jì)算等多項(xiàng)評(píng)測(cè)任務(wù)。
他在最后分享了諧音雙關(guān)語(yǔ)、語(yǔ)義雙關(guān)語(yǔ)、諧音幽默生成及相聲包袱識(shí)別等幽默計(jì)算研究在學(xué)界及業(yè)界的相應(yīng)嘗試與實(shí)踐。他也指出,目前幽默計(jì)算的難點(diǎn)在于常識(shí)知識(shí)的應(yīng)用,而中文幽默的挑戰(zhàn)在于「音形義結(jié)合的表示+基于常識(shí)的推理」。他總結(jié)道,幽默計(jì)算是一件并不幽默的事情,不懂幽默的智能只是機(jī)械的匹配,缺乏情感的計(jì)算也只是無趣的代碼,也進(jìn)一步強(qiáng)調(diào)了幽默計(jì)算于自然語(yǔ)言理解的重要性。
北京師范大學(xué)新聞傳播學(xué)院張洪忠教授的特邀報(bào)告主題是《社交網(wǎng)絡(luò)中的 AI 機(jī)器人:新問題與新范式》。
報(bào)告伊始,他提到社交媒體中的 AI 機(jī)器人無處不在,如微軟小冰、騰訊 babyQ 等。他表示,AI 機(jī)器人的分類,可以從功能類別上劃分,也可以從價(jià)值上(即「好」和「壞」)進(jìn)行劃分,還可以從人機(jī)關(guān)系的角度劃分。社交網(wǎng)絡(luò)中的 AI 機(jī)器人則分為聊天機(jī)器人、垃圾機(jī)器人、移動(dòng)電話助手三類。
從傳播學(xué)角度看,社交網(wǎng)絡(luò)中的 AI 機(jī)器人定義為:在線社交網(wǎng)絡(luò)中對(duì)人的身份的扮演、擁有不同程度的人格屬性、與人進(jìn)行互動(dòng)的虛擬 AI 形象。
他表示,社交網(wǎng)絡(luò)中 AI 機(jī)器人現(xiàn)在有兩條研究路徑:
一是從計(jì)算機(jī)科學(xué)的角度,這里有基于社交網(wǎng)絡(luò)信息的機(jī)器人識(shí)別系統(tǒng),如機(jī)器人排名,群組識(shí)別算法,聯(lián)結(jié)免責(zé),「蜜罐陷阱」算法,還有基于眾包方式和人工手段的機(jī)器人識(shí)別系統(tǒng),此外還有基于特征工程的機(jī)器學(xué)習(xí)識(shí)別技術(shù)。
二是從社會(huì)科學(xué)的角度,這里可以從四個(gè)方向探討,一是注重效果測(cè)量的計(jì)算方法取向,二是注重道德問題的文化批判取向,三是偏重政策分研究取向,四是著眼未來趨勢(shì)的探索反思取向。
他表示,AI 機(jī)器人已經(jīng)成為計(jì)算機(jī)科學(xué)和社會(huì)科學(xué)都共同關(guān)注的一個(gè)新事物,一個(gè)交叉學(xué)科的研究對(duì)象。
接下來,他介紹了自己學(xué)生的一個(gè)實(shí)驗(yàn)案例,從選題背景和文獻(xiàn)回顧、實(shí)驗(yàn)設(shè)計(jì)和分析、仿真模型設(shè)計(jì)和分析等多個(gè)方面進(jìn)行了討論。他們將社交媒體群組中不存在機(jī)器人的原始實(shí)驗(yàn)和社交媒體群組中存在機(jī)器人的第二次實(shí)驗(yàn)對(duì)比,得出如下結(jié)論:社交機(jī)器人參與社交群組討論會(huì)改變社交群組的意見表達(dá)形勢(shì);由于機(jī)器人缺乏對(duì)外部意見形勢(shì)的感知,盡管社交機(jī)器人的效用優(yōu)于普通賬戶,但不如關(guān)鍵少數(shù)派用戶。
之后,他表示對(duì)社交網(wǎng)絡(luò)中機(jī)器人影響的研究應(yīng)該成為一個(gè)重要方向,這里他還簡(jiǎn)單介紹了印第安納大學(xué) Shao 等學(xué)者,Murthy 等學(xué)者,Vosoughi 等學(xué)者的研究。
而在報(bào)告的最后,他表示,隨著技術(shù)的快速迭代,AI 機(jī)器人越來越具有人格化特征,但這些人格化特性不同于我們正常的「人」,會(huì)為社會(huì)科學(xué)帶來新的問題。他強(qiáng)調(diào),社交網(wǎng)絡(luò)中的 AI 機(jī)器人將引來社會(huì)科學(xué)研究的新范式。
大會(huì)第二天的兩場(chǎng)特邀報(bào)告,內(nèi)容包括文本摘要和大數(shù)據(jù)應(yīng)用。
德雷塞爾大學(xué)計(jì)算與信息學(xué)學(xué)院教授胡小華作為第一位上臺(tái)嘉賓,他的報(bào)告主題為《Question-based Text Summarization》。
在報(bào)告中,他首先談到 Facebook、IBM 和 Google 的文本摘要模型,F(xiàn)acebook 模型有 bag-of-words encoder、convolutional encoder、attention-based encoder,當(dāng)時(shí)在 DUC-2004 數(shù)據(jù)集上達(dá)到頂尖水平,IBM 在 Facebook 基礎(chǔ)上提出一些改進(jìn),encoder 是 bi-directional GRU,decoder 是 uni-directional GRU,隨后,Google 又在這兩個(gè)模型基礎(chǔ)上提出改進(jìn),取得了非常不錯(cuò)的效果。
隨后,他提到文本摘要的一些案例,他表示,大多數(shù)摘要受限于陳述句,這時(shí)候,提出了這樣一個(gè)觀點(diǎn),問句能否幫助文本摘要?
做基于問題的摘要主要有如下原因:?jiǎn)栴}讀起來更有吸引力,問題能幫讀者變得更具互動(dòng)性。他表示,基于問題的摘要并不是要替換掉陳述性摘要,而是能用來反映源文件的主旨。
之后,他提到研究問題的主要目標(biāo)是確保生成的問題與文本相關(guān),同時(shí)文本能回答生成的問題。這時(shí)候衍生出三個(gè)主要研究問題:一是問題存在于哪里,二是如何測(cè)量問題和文本間的相容性,三是如何評(píng)估基于問題的摘要的有效性。
他提到這一系統(tǒng)的整體架構(gòu),第一步是問題選擇,這里涉及到目標(biāo)、方法等等,第二步是問題多樣化。接下來是一些實(shí)驗(yàn),涉及到實(shí)驗(yàn)數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置、網(wǎng)絡(luò)模型、評(píng)價(jià)指標(biāo)、實(shí)驗(yàn)結(jié)果等各個(gè)方面。
他做出如下總結(jié):這是一個(gè)信息檢索和自然語(yǔ)言處理的交叉任務(wù),包含問題選擇和多樣化的兩層框架。在問題選擇上,他探討了基于檢索的方法和數(shù)據(jù)驅(qū)動(dòng)的方法。未來,他們將會(huì)延伸到多文本摘要,也將繼續(xù)擴(kuò)展至不同的文本,例如新聞、科學(xué)類文章、社交媒體等等。
在報(bào)告的最后,他提到即將于 12 月在美國(guó)召開的 IEEE Big Data 2018,希望大家踴躍參與。
最后一位特邀報(bào)告嘉賓是中央財(cái)經(jīng)大學(xué)國(guó)際經(jīng)濟(jì)與貿(mào)易學(xué)院的李兵副教授,他的報(bào)告主題是《經(jīng)濟(jì)學(xué)中的大數(shù)據(jù)應(yīng)用》。他指出,經(jīng)濟(jì)學(xué)(社會(huì)科學(xué))的數(shù)據(jù)困境目前面臨追求因果關(guān)系、實(shí)驗(yàn)數(shù)據(jù)有限、測(cè)量成本高昂等因素,而大數(shù)據(jù)為經(jīng)濟(jì)學(xué)研究提供了低成本、客觀、迅速的有利條件。
借助衛(wèi)星遙感數(shù)據(jù)、網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)、行政管理數(shù)據(jù)和文本數(shù)據(jù)等多種數(shù)據(jù),研究者可以對(duì)經(jīng)濟(jì)學(xué)進(jìn)行更加深入的研究。比如,通過植被覆蓋率的變化,研究者可以推斷其對(duì)溫室效應(yīng)造成的環(huán)境影響,甚至關(guān)聯(lián)到國(guó)家治理問題;通過銀行數(shù)據(jù)的調(diào)查,可以印證凱恩斯等經(jīng)典經(jīng)濟(jì)學(xué)理論,并延伸到階層固化問題于經(jīng)濟(jì)增長(zhǎng)的意義。
他隨后介紹了幾個(gè)研究案例,以夜間燈光數(shù)據(jù)庫(kù)為樣本,他的團(tuán)隊(duì)測(cè)算出各國(guó) GDP 增長(zhǎng)率的燈光擬合值及最優(yōu)擬合值,并通過這種方式補(bǔ)全了部分?jǐn)?shù)據(jù)缺失的國(guó)家GDP(如羅馬尼亞、阿富汗)。同時(shí)還以此為線索,發(fā)現(xiàn)了一些GDP數(shù)據(jù)被高估/低估的國(guó)家。
此外,通過爬蟲抓取大眾點(diǎn)評(píng)上的商店名稱、地理位置、商品等公開信息,團(tuán)隊(duì)將數(shù)據(jù)與第六次人口普查數(shù)據(jù)進(jìn)行地理匹配,探討人口數(shù)量、人口流動(dòng)及菜品之間的關(guān)系。他指出研究顯示「人口的集聚會(huì)從消費(fèi)端帶來不可貿(mào)易品的集聚,最終給人口更加集聚的城市帶來更大的多樣性福利」。同時(shí),人口流動(dòng)的放開與限制需要權(quán)衡多種因素,政策制定也需要精巧的設(shè)計(jì)。
不論是考察電子商務(wù)平臺(tái)對(duì)企業(yè)出口市場(chǎng)進(jìn)入和出口規(guī)模的影響,或是基于報(bào)紙關(guān)鍵詞集的測(cè)量判斷對(duì)經(jīng)濟(jì)政策的影響,本質(zhì)上都是借助大數(shù)據(jù)對(duì)經(jīng)濟(jì)學(xué)進(jìn)行更加廣泛的研究和調(diào)查。他最后總結(jié)道,上述成功案例表明,在用大數(shù)據(jù)研究經(jīng)濟(jì)學(xué)問題時(shí),需要關(guān)注重大現(xiàn)實(shí)問題,驗(yàn)證重要理論問題,并發(fā)明簡(jiǎn)單實(shí)用的方法。未來,學(xué)科交叉將成為大趨勢(shì),學(xué)術(shù)研究的模塊化也會(huì)成為研究的新方向。
以上就是 SMP 2018 特邀報(bào)告全部?jī)?nèi)容,相信聽完這六場(chǎng)報(bào)告,大家勢(shì)必對(duì)社會(huì)媒體處理的內(nèi)涵和外延產(chǎn)生了更豐富的認(rèn)識(shí)和見解。接下來,雷鋒網(wǎng)將會(huì)持續(xù)帶來更多現(xiàn)場(chǎng)報(bào)導(dǎo),敬請(qǐng)期待。
本文圖片來源:哈工大 SCIR 李家琦,特此感謝。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章