丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

本文作者: 我在思考中 2021-08-27 18:29
導語:中美民眾分別是如何看待新冠疫苗的呢?這是一個需要我們認真研究的問題。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

AI 科技評論報道

作者 | 羅杰波團隊

編輯 | 陳大鑫

中美民眾分別是如何看待新冠疫苗的呢?

這是一個需要我們認真研究的問題。

當今開發(fā)新冠疫苗,并在全球范圍內使用疫苗,成為了終結此次疫情的優(yōu)先選項。然而當全世界科學家及醫(yī)學專家都在開發(fā)和測試新冠疫苗的同時,美國民眾對于是否接種疫苗產生了不同的意見。根據(jù)皮尤研究中心最近的一次調研[1],2020年5月,71%受調研的美國民眾認為如果有疫苗,他們將一定或可能進行接種。然而這一比例在2020年9月驟降至51%。該調研指出,美國民眾擔憂的是疫苗的安全、有效性,以及疫苗的批準使用進程是否合規(guī)。

疫情如此嚴重,美國民眾對疫苗的接受度反而出現(xiàn)這種反復,不由得讓人想知道個究竟。同樣的,中國民眾是如何看待新冠疫苗的,也成為了我們關心的問題。

美國羅切斯特大學羅杰波教授團隊進行了兩項基于社交媒體的相關研究:

(1)基于超過一萬名推特用戶在2020年9-11月期間發(fā)布的對于疫苗態(tài)度的相關推特,使用人機耦合機器學習框架,捕捉美國民眾對于新冠疫苗的態(tài)度;

(2)基于超過五萬名微博用戶在2020年1月底到11月初期間發(fā)布的與新冠疫苗相關的14余萬條微博,使用機器學習框架對中國民眾的情感傾向進行了統(tǒng)計歸納,并且根據(jù)相應的用戶組和不同話題進行分類,探討在不同子集上的情感傾向。


1

美國民眾如何看待新冠疫苗

以美國民眾為研究對象,團隊發(fā)現(xiàn),對疫苗持不同態(tài)度的人群比例變化大致與疫情相關事件相對應,并且美國東南地區(qū)對疫苗的接受度相對較低。為了研究美國民眾態(tài)度的范圍和起因,本文使用多類別邏輯回歸,比較了支持、猶豫、反對這三組人的性別、年齡、社會資本、收入、宗教、政治傾向、地理位置、與疫情相關及不相關經(jīng)歷的情感、以及官方統(tǒng)計到的郡層面疫情嚴重程度,并發(fā)現(xiàn)了顯著的區(qū)別。平均上于社會經(jīng)濟狀況處于劣勢的人群更容易持有極化意見(支持或反對)。

對與疫情相關經(jīng)歷持有最負面情感的人群,往往更可能對疫苗持反對意見。使用虛擬反事實分析,本文發(fā)現(xiàn)美國民眾在談及潛在疫苗時,最關注的是安全、有效性已經(jīng)政治因素。另外,改善民眾與疫情相關的經(jīng)歷有利于提高對疫苗的接受度。本文在社交網(wǎng)絡層面,對美國民眾對于新冠疫苗的態(tài)度研究,有助于未來制定更為有效的疫苗接種政策與方案。

本文利用基于 transformer 的自然語言處理模型,使用人機耦合機器學習框架,捕捉人們對于新冠疫苗的態(tài)度,并將其分為三組:支持疫苗、猶豫、反對疫苗。提出三項假設:

假設一:這三組人的性別、年齡、社會資本、收入、宗教、政治傾向、地理位置有差異。

假設二:個人與疫情相關的經(jīng)歷對其形成何種態(tài)度有影響。

假設三:郡層面疫情嚴重程度對其形成何種態(tài)度有影響。

人機耦合機器學習框架

簡單地說,本文先通過標注一部分推特所呈現(xiàn)出的對疫苗態(tài)度,然后將其作為訓練集,訓練基于transformer的自然語言處理模型,并將其用于推斷剩下推特所表現(xiàn)的對疫苗態(tài)度。

然而,不同于以往的研究,本文收集的推特中,絕大多數(shù)都與表達對疫苗態(tài)度無關。由于本研究真正關心的是那些對疫苗表達態(tài)度的推特,所以找出這些有關推特是首先要面對的問題。同時,在訓練時樣本不均衡,將會不僅使人為標注的過程變慢,也會抑制訓練出的分類器的表現(xiàn)。為解決這一問題,本文使用了機耦合機器學習框架。

本文先從 244,049 條推特中隨機抽樣2,000條不同的推特。三名研究者獨立地閱讀推特,并判斷該條推特是與表達態(tài)度不相關、支持疫苗、猶豫、反對疫苗四類中的哪一類。該條推特的類別將由三名研究者的投票結果產生。如果三人的標注的類別均不相同,那么將由三位研究者討論,給出最終結果。

這 2,000 條標注好的推特作為訓練集C_train,用 XLNet 模型訓練,輸出為四分類,記該四分類模型為H_1。模型的表現(xiàn)將由另外再標注的400條推特驗證集D_validation進行驗證。由于樣本的不均衡(絕大多數(shù)為與表達態(tài)度不相關的推特,占比84%),本文通過再訓練一個二分類模型來主動尋找與表達態(tài)度相關的推特。具體來說,本文將2,000條的四分類標簽改為二分類,與表達態(tài)度不相關的為一類,剩下的支持、猶豫、反對合并為一類。這2,000條用XLNet模型訓練,輸出為二分類,記該二分類模型為H_2。用于訓練H_1和H_2的訓練集除了標簽分別為四分類和二分類以外沒有區(qū)別。

訓練完的H_2用于在最早的244,049推特集中主動尋找與表達態(tài)度相關的推特。具體操作上,本文從244,049推特中隨機抽樣4,500條推特,使用H_2進行分類,抽取H_2認為最有可能是與表達態(tài)度相關的推特的前10%(450條)。再隨機從剩下的4,050條抽樣50條。這500條推特將由前文提到的三名研究者再度進行四分類標注,加入之前的2,000條,用于擴充訓練集C_train。值得注意的是,本文從4,050條中隨機抽樣50條目的為保證一定的多樣性。接下來,本文用2,500條訓練集重新訓練H_1,并用D_validation進行驗證。這一人機耦合過程為一輪,每一輪往C_train中擴充500條推特。

在進行五輪人機耦合標注后,最終訓練樣本包含4,500條不同的推特。與表達態(tài)度相關的推特占比從最早的16%上升至最終的40%。這一人機耦合機器學習框架主動搜索與表達態(tài)度相關的推特,以此來均衡樣本,從而更有效地標注推特態(tài)度及構造模型。

國家及州層面民眾態(tài)度

美國民眾對于疫苗態(tài)度的占比變化如圖所示,其占比變化和與疫情相關的事件大致對應??傮w上,57.65%支持疫苗,19.30%持猶豫態(tài)度,剩下的持反對疫苗態(tài)度。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

美國民眾對疫苗態(tài)度占比變化

州層面對疫苗態(tài)度如下圖所示。美國東南地區(qū)、俄亥俄州、印第安納州與肯塔基州對疫苗持有一個相對低的支持態(tài)度。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?美國各州對疫苗態(tài)度,括號中為該州樣本數(shù)量

本文還發(fā)現(xiàn),內華達州、田納西州以及華盛頓州支持疫苗的人群占比變化曲線與國家平均偏離最多。華盛頓州在9-11月期間,支持疫苗的人群占比普遍比國家平均高,而內華達州支持疫苗人群占比普遍比國家平均低。田納西州支持疫苗人群占比變化較大。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

美國平均、內華達、田納西、華盛頓州支持疫苗人數(shù)占比

女性更可能持猶豫態(tài)度。比較猶豫和反對疫苗的人群,本文發(fā)現(xiàn),女性更有可能對疫苗持猶豫態(tài)度。比較猶豫和支持疫苗的人群,本文發(fā)現(xiàn),女性更有可能對疫苗持猶豫態(tài)度。

年齡越大,越支持疫苗。比較猶豫和反對疫苗的人群,本文沒有發(fā)現(xiàn)統(tǒng)計意義上年齡的顯著不同。然而在比較猶豫和支持疫苗的人群時,本文發(fā)現(xiàn)年齡越大的人,越有可能支持疫苗。這一發(fā)現(xiàn)與 Lazarus et al. (2020)的發(fā)現(xiàn)一致??赡艿慕忉屖?,年齡大的人群感染新冠病毒后死亡風險更高,避免感染新冠病毒的益處大于接種疫苗帶來的風險。

使用推特模式不同的人群,態(tài)度亦不同。擁有更多粉絲或更少好友或點更多贊的推特用戶更可能持極化態(tài)度(支持或反對)。

參與的小組更多的推特用戶更支持疫苗。發(fā)布推特數(shù)量更多的用戶更可能持反對態(tài)度。

收入較低的群體更可能持極化態(tài)度。比較猶豫和反對疫苗的人群,本文發(fā)現(xiàn)收入越低的群體,對疫苗越反對。另外一篇論文,Lazarus et al. (2020) 發(fā)現(xiàn)收入越高的人群越支持疫苗。本文發(fā)現(xiàn)收入的影響更細微。

宗教群體更可能持極化態(tài)度。比較猶豫和反對疫苗的人群,以及猶豫和支持疫苗的人群后,本文發(fā)現(xiàn)宗教群體亦或更反對疫苗、亦或更支持疫苗。這一發(fā)現(xiàn)與Larson et al. (2014)一致。

政治傾向不同,對疫苗所持態(tài)度不同。比較猶豫和反對疫苗的人群,本文發(fā)現(xiàn)關注特朗普的人群更反對疫苗,關注拜登的人群更可能持猶豫態(tài)度。比較猶豫和支持疫苗的人群,本文沒有發(fā)現(xiàn)關注特朗普的人群統(tǒng)計意義的顯著不同,然而本文發(fā)現(xiàn)關注拜登的人群更可能持猶豫態(tài)度。

非城市居民更反對疫苗。雖然所居住地理位置在三組互相比較中,并沒有統(tǒng)計意義不同,但本文在比較猶豫和反對疫苗兩組人群中發(fā)現(xiàn)非城市居民統(tǒng)計意義上更可能反對疫苗。

個人在疫情期間的經(jīng)歷以及所在郡的疫情嚴重程度對其所持態(tài)度有影響。比較猶豫和反對疫苗人群,猶豫和支持疫苗人群中,本文發(fā)現(xiàn),個人對于在疫情期間的經(jīng)歷情感越積極,其對疫苗的態(tài)度越正面。比較猶豫和支持疫苗的人群,本文發(fā)現(xiàn),民眾所在郡的疫情越嚴重,民眾越有可能持猶豫態(tài)度。

以上發(fā)現(xiàn)均驗證了本文的三項假設。

討論

通過多類別邏輯回歸,本文發(fā)現(xiàn)支持、猶豫、反對三組人的人群特征顯著不同。女性更容易持猶豫態(tài)度。年齡越大,越支持疫苗。社會資本不同的人群,所持態(tài)度不同。低收入群體對疫苗的態(tài)度更極化。宗教群體對疫苗的態(tài)度更計劃。政治傾向不同也會導致對疫苗態(tài)度的不同。個人與疫情相關的經(jīng)歷和所在地區(qū)的疫情嚴重程度都對其對疫苗所持態(tài)度有影響。

通過虛擬反事實分析,本文發(fā)現(xiàn)民眾對疫苗的態(tài)度,與政治,疫苗安全及有效性相關。去除政治因素有助于提高疫苗接受度。去除安全及有效性因素不利于提高疫苗接受度。改善個人對疫情的相關經(jīng)歷有助于提高疫苗接受度。


2

中國民眾如何看待新冠疫苗

以中國民眾為研究對象,團隊發(fā)現(xiàn),微博的情感變化與疫苗研發(fā)過程中的重要事件是息息相關的,且大致上相關微博以中性情感為主,正向情感要高于負向情感。

情感判別框架

本文利用 CCIR 2020[2] 所發(fā)布的人工標注的微博情感極性數(shù)據(jù)集和fastText[3]框架訓練了微博情感極性分類器,對本文所收集的新冠疫苗相關微博進行了情感極性分類,包含中性,正向和負向三種。

如論文[4]中所述fastText是一個能夠有效的進行文本分類的深度學習框架,利用已標注數(shù)據(jù)進行訓練,模型有能力對無標注的數(shù)據(jù)進行分類。以情感分類為例,fastText模型中,微博文本被處理為n-gram的特征,這些特征嵌入為向量且其平均值構成了隱藏層,然后通過分層式的softmax層給出情感分類的結果。通過上述的訓練過程,fastText模型能夠利用有情感極性標注的數(shù)據(jù),通過輸入特征與情感標注定義的目標函數(shù),反向傳播梯度,從而使模型對未標注數(shù)據(jù)有分類的能力。通過上述的訓練與測試,本文對所收集的微博未標注數(shù)據(jù)進行了情感極性上的分類。

本文利用“情緒指數(shù)”來統(tǒng)計一段時間內的整體情感傾向,其計算的方法是:

(正向情感微博數(shù)-負向情感微博數(shù))/(正向情感微博數(shù)+負向情感微博數(shù))

整體情感傾向

新冠疫苗相關的情緒指數(shù)如圖所示,該圖以十天為單位進行了平滑。圖中標注了部分有代表性的日期以及在微博上相應的熱點討論話題。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

不同用戶組的微博情感傾向

來自不同用戶組的微博子集構成了整個新冠疫苗相關微博數(shù)據(jù)集,不同子集的微博也表現(xiàn)出不同的情感傾向。

女性用戶的微博更可能展示出情感極性。比較男女性用戶所發(fā)微博的情感傾向,由女性用戶發(fā)出的微博更可能有正向或者負向的情感傾向。

青年用戶的微博更可能展示出情感極性。比較不同年齡段用戶所發(fā)微博的情感傾向,青年用戶所發(fā)的微博占相對更多的比例,并且這些微博更有可能展示出正向或負向情感。

粉絲少的用戶的微博更可能展示出極性情感。比較來自粉絲數(shù)量不同的用戶所發(fā)微博的情感傾向,粉絲相對較少的用戶更可能表現(xiàn)出情感極性,并且相對于粉絲更多的用戶組的微博更偏向負向。

不同模式交互的微博情感極性的模式有所不同。大多數(shù)的微博集中在極少交互,甚至沒有吸引到態(tài)度交互(例如點贊)、評論與轉發(fā)。這些幾乎無交互的微博的情緒指數(shù)是近似的。高交互的微博情感傾向與交互類型有關,在交互較多的微博集合上,相對而言之,轉發(fā)的情緒指數(shù)較高,評論次之,態(tài)度交互再次之。

不同話題的微博情感傾向

中美情緒指數(shù)呈現(xiàn)相關性。比較提到中國、美國及中美均包含的微博,除中國與中美均包含外,其情緒指數(shù)展示出很強的相關性。在數(shù)量上,三者也展現(xiàn)了相關性。

例如美國制裁俄羅斯研究新冠疫苗的機構的新聞相關有相當數(shù)量微博顯示了負向情感。整體而言,中國相關的微博的情緒指數(shù)相比另外兩組微博更加正向。

“價格”:大多數(shù)關于價格的微博都是中性情感,顯示出極性的情感的微博主要討論新聞:新冠疫苗的價格是民眾可接受的

“安全”:大多數(shù)關于安全的微博都是中性的以及部分偏向正向的。正向情感的微博討論集中于陳薇院士團隊研發(fā)出重組疫苗、非人靈長類動物實驗結果公布、俄羅斯開展新冠疫苗接種以及新冠疫苗開始預約等。

“國產”:大多數(shù)關于國產的微博集中討論的國產新冠疫苗亮相及預計上市時間等新聞。

“金融”:很多金融領域的微博博主參與了新冠疫苗相關的討論。“國藥”相關的新冠疫苗微博的數(shù)量及情緒與國藥集團的收盤價呈現(xiàn)了一定的相關性。

討論

本文通過統(tǒng)計現(xiàn)有微博及其相應的用戶信息,給出了新冠疫苗相關的微博的整體情感傾向和特定用戶群體所發(fā)微博的情感傾向。通過詞云圖可以展示更直觀的用戶討論,如下圖所示,展示了用戶關注的出現(xiàn)頻率比較高的一部分關鍵詞。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

  1. https://www.pewresearch.org/science/2020/09/17/u-s-publicnow-divided-over-whether-to-get-covid-19-vaccine/ 
  2. https://www.datafountain.cn/competitions/423/datasets 
  3. https://fasttext.cc 
  4. A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
    P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information 
  5. "Social media study of public opinions on potential COVID-19 vaccines: informing dissent, disparities, and dissemination" is available at https://doi.org/10.1016/j.imed.2021.08.001

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。

基于 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說