0
本文作者: skura | 2019-02-26 17:44 |
雷鋒網(wǎng) AI 科技評論按,國際賽事上屢傳佳報的百度,2019 年開年再次拿下「一血」。2019 年 2 月 1 日,第十三屆國際語義評測比賽(International Workshop on Semantic Evaluation, SemEval 2019)落下帷幕。在論壇評論建議挖掘任務(wù)評測(Task 9A: Suggestion Mining from Online Reviews and Forums)中,百度一舉擊敗來自全球的 210 余支隊伍,最終以 F 值 78.12% 的成績奪得冠軍,表明了百度率先在評論建議挖掘領(lǐng)域嘗試并取得喜人的成果。
SemEval-2019 Task 9A 最終榜單,百度排名第一
SemEval 評測是自然語言處理領(lǐng)域的國際性權(quán)威競賽,由國際計算語言學(xué)協(xié)會(Association for Computational Linguistics, ACL)下屬的 SIGLEX 主辦。ACL 是自然語言處理與計算語言學(xué)領(lǐng)域最高級別的學(xué)術(shù)會議,是世界上影響力最大、最具活力的國際學(xué)術(shù)組織。自 2001 年起,SemEval 至今已成功舉辦十二屆,吸引了世界范圍內(nèi)的多所大學(xué)和研究機構(gòu)的參加,在業(yè)界和學(xué)術(shù)界具有極高影響力。本次評測聚焦的任務(wù)是論壇評論建議挖掘,旨在抽取從網(wǎng)絡(luò)論壇或評論中自動識別建議性的句子,用于幫助企業(yè)、政府機關(guān)等組織持續(xù)不斷的從海量數(shù)據(jù)中提取有價值的信息。
如今,用戶喜歡在網(wǎng)絡(luò)中發(fā)表評論,表達自己對個人、產(chǎn)品、服務(wù)和社會事件等的意見和想法,這些評論不僅蘊含用戶豐富的情感表達,有些還包含著用戶對產(chǎn)品或服務(wù)的建議。比如「我喜歡吃這家餐廳」是用戶表達喜歡這種情感的評論,但在「我喜歡吃這家餐廳,如果環(huán)境再好一點就更好了」這條評論中,還包含了用戶對這家餐廳的建議。以往的情感分析研究更關(guān)注用戶是否存在負(fù)面情感,上述這條評論往往會被忽略,實際上建議類評論對提升企業(yè)服務(wù)具有極高價值。目前,業(yè)界有大量針對用戶情感分析的研究,但建議挖掘還處于初步階段,百度率先在評論建議挖掘領(lǐng)域嘗試。
建議挖掘是一項新的研究任務(wù),該任務(wù)需要綜合考慮句子的語義、語態(tài)、 情緒、句式、上下文等信息,才能做出準(zhǔn)確的判斷。例如「可以考慮在節(jié)假日增加幾趟航班」,「假如房間里提供熱水壺,我下次還愿意訂在這里」等句子雖然句式、形態(tài)、評論的對象完全不同,但都是有價值的建議。對「建議」內(nèi)涵和外延的理解存在比較大的主觀性,使得問題定義及語料標(biāo)注難以取得一致,這給建議挖掘帶來了很多困難。
此次比賽中,百度團隊采用多種技術(shù)手段解決難題,并最終取得了亮眼成果。首先,針對任務(wù)標(biāo)注數(shù)據(jù)過于稀疏的問題,團隊構(gòu)建了以大規(guī)模無監(jiān)督數(shù)據(jù)為基礎(chǔ)的跨領(lǐng)域、多句式深度語義分類模型。采用融合淺層學(xué)習(xí)和深度學(xué)習(xí)的 Ensemble 學(xué)習(xí)模型,以解決樣本不平衡問題。面對網(wǎng)絡(luò)文本形式多樣、表達不規(guī)范的現(xiàn)狀,團隊采用精細(xì)化粒度特征和注意力遷移機制進行處理。最終,百度團隊以 F 值 78.12% 的成績戰(zhàn)勝了來自全球的 210 余支隊伍,奪得冠軍。
企業(yè)期待及時獲取消費者的評價以改進服務(wù)、政府和媒體希望從海量文本中提取意見以成為決策參考與新聞素材……而互聯(lián)網(wǎng)上還有大量評論數(shù)據(jù)沉淀,亟待深度應(yīng)用。評論建議挖掘用于輔助決策,無疑是極具實用價值的自然語言處理任務(wù)!
賦予機器「認(rèn)知」能力,是人工智能最具挑戰(zhàn)的技術(shù)領(lǐng)域之一,自然語言處理屬于認(rèn)知部分的重要內(nèi)容。更深入地理解語言,讓機器具備人類的思考和理解能力意義重大。百度在自然語言處理(NLP)領(lǐng)域已經(jīng)過十余年積累與沉淀,具備了最前沿、最全面、最領(lǐng)先的技術(shù)布局,不僅專注于前瞻技術(shù)探索,更致力通過技術(shù)應(yīng)用解決實際問題。目前,百度語義理解技術(shù)已廣泛應(yīng)用于百度內(nèi)外,在搜索、信息流等一系列產(chǎn)品應(yīng)用中發(fā)揮重要作用。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。