0
本文作者: AI研習(xí)社-譯站 | 2020-11-15 10:30 |
譯者:AI研習(xí)社(Champagne Jin)
雙語(yǔ)原文鏈接:In Their Own Words: 60 Years of Presidential Debates
圖源:Shelagh Murphy 于 Unsplash
共和黨:失業(yè);商業(yè);自由
民主黨:婦女;中產(chǎn)階級(jí);醫(yī)保
接著,我使用Scattertext來(lái)探究1960年至2020年總統(tǒng)競(jìng)選辯論中的主題特征。由于諸多原因,這些辯論也是相當(dāng)不錯(cuò)的分析案例。辯論過(guò)程中,主持人或小組成員可以選擇當(dāng)前的熱點(diǎn)話題,也可以選擇更自由的關(guān)于領(lǐng)導(dǎo)力的相關(guān)話題。候選人在辯論中可就沒(méi)法子從自己的支持者那里得到安慰了,迎接他們的,往往是尚未做出最終決定的選民提出的尖銳問(wèn)題。此外,時(shí)間的限制要求他們務(wù)必簡(jiǎn)明扼要,因此候選人必須權(quán)衡他們的用詞來(lái)盡可能地表達(dá)主旨。通過(guò)每一位候選人的辯論,我們可以看到一個(gè)選舉周期中政黨意識(shí)形態(tài)的縮影。
下方是一張由ScatterText繪制出來(lái)的圖,語(yǔ)料由PyTextRank自動(dòng)標(biāo)記重要短語(yǔ)后得到。然后將這些短語(yǔ)通過(guò)其密集等級(jí)頻率和兩黨使用的密集等級(jí)頻率差異與圖中的一個(gè)點(diǎn)相關(guān)聯(lián)(這里有個(gè)不錯(cuò)的例子,方便你理解這句話)。圖片中每個(gè)關(guān)鍵詞都是一個(gè)超鏈接,點(diǎn)擊后你就可以看到兩方具體說(shuō)了什么!(譯者說(shuō):真心厲害啊,這里建議訪問(wèn)原文,感受一下交互)
這副由ScatterText繪制出來(lái)的圖像中展示了兩黨辯論中的單詞及其使用頻率,豎軸為民主黨,橫軸是共和黨。其中,民主黨用的最多的短語(yǔ)靠近左上角,共和黨的則靠近右下角。而對(duì)角線處的黃色標(biāo)識(shí)詞匯則表示中性詞或是兩黨共有的論點(diǎn)(比如貿(mào)易、民主、政治、犯罪)。整張圖片是交互式的,你可以點(diǎn)擊單詞并看到所有發(fā)言者包含該單詞的辯詞。交互式圖表可以在這里訪問(wèn):Scattertext Plot Presidential Debates。
從一個(gè)單詞出發(fā),我們可以使用Scattertext可視化的直觀功能深入探討兩黨的思想鴻溝。沿著分?jǐn)?shù)接近零的關(guān)鍵短語(yǔ)對(duì)角線看,這些對(duì)角線上的詞匯代表了雙方都需要解決的關(guān)鍵問(wèn)題或挑戰(zhàn)。而處在對(duì)角線上就像站在山谷里,抬頭看著圖中左上角跟右下角兩座大山。
搖擺州俄亥俄處在對(duì)角線上,而密歇根州則進(jìn)一步向負(fù)軸傾斜,因?yàn)楣埠忘h人經(jīng)常提到它。
雙方均以平均頻率提及“預(yù)算”和“貿(mào)易”等關(guān)鍵問(wèn)題,因此,這些單詞顯示在圖像中心處。
在圖像右上角,可以看到雙方都以極高的頻率提到“稅收”以及“就業(yè)”。
表示意識(shí)形態(tài)的單詞距離我們所說(shuō)的這個(gè)“山谷”最遠(yuǎn)。例如,“美國(guó)工人”一詞僅由民主黨候選人使用。喬治·W·布什(George W. Bush)主要使用類似“年輕工人”的短語(yǔ)來(lái)描述他的社會(huì)保障計(jì)劃。拿那些具有相同以及相反分值的單詞來(lái)對(duì)比兩黨黨綱的要義可以說(shuō)是非常有趣。例如,共和黨人的“北美自由貿(mào)易區(qū)”與民主黨人的“收入”分值相近,這表明共和黨人討論和批評(píng)北美自由貿(mào)易區(qū)的程度與民主黨候選人關(guān)注家庭收入的程度一樣。下面更多的例子表明了雙方的談話要點(diǎn):
民主黨:“人權(quán)”,共和黨:“我們的軍隊(duì)”
民主黨:“減稅”,共和黨:“失業(yè)”
民主黨:“房產(chǎn)”,共和黨:“債務(wù)”
由 Isai Ramos 攝于 Unsplash
在圖片左上角和右下角,您可以看到每個(gè)總統(tǒng)候選人對(duì)他(她)的對(duì)手所說(shuō)的話。達(dá)成共識(shí)是一個(gè)非常有趣的特征,例如,巴拉克·奧巴馬(Barack Obama)幾次承認(rèn)麥凱恩參議員(或“約翰”)是“絕對(duì)正確的”,而約翰·麥凱恩(John McCain)也相應(yīng)地至少承認(rèn)過(guò)一次(當(dāng)提及美軍在阿富汗的戰(zhàn)略時(shí))。從圖像底部看,辯論逐漸偏向個(gè)人化,因?yàn)橹饕煞磳?duì)者的名字(左下角)來(lái)指稱對(duì)手,共和黨(民主黨一般不)經(jīng)常使用的用語(yǔ)由唐納德·特朗普(Donald Trump)的關(guān)鍵短語(yǔ)主導(dǎo):
“是的,是的,我們聽(tīng)說(shuō)過(guò)——我們以前聽(tīng)過(guò),希拉里。”
“你知道為什么嗎,因?yàn)槟銐焊褪莻€(gè)笨比,喬。47年了,您一事無(wú)成?!?/p>
“對(duì)不起,我插一句。因?yàn)樗鳛閰⒆h員一直是一場(chǎng)災(zāi)難。 災(zāi)難?!?/p>
“老實(shí)說(shuō),她的判斷力很差,以至于她永遠(yuǎn)都不應(yīng)該擔(dān)任美國(guó)總統(tǒng)。 我老實(shí)告訴你吧。”
“我不認(rèn)識(shí)Beau,不過(guò)我認(rèn)識(shí)Hunter。Hunter被趕出了軍隊(duì)。他因吸食可卡因而被開(kāi)除,這可不光彩啊?!保ㄗg者注:這里的Hunter是指拜登的兒子)
圖源:Maria Oswalt 攝于 Unsplash
隨著候選者立場(chǎng)的不斷推移發(fā)展,關(guān)注更多實(shí)質(zhì)性主題會(huì)變得更加有趣。 墮胎一直是共和黨和民主黨之間黨派分歧的關(guān)鍵問(wèn)題,最近艾米·科尼·巴雷特(Amy Coney Barrett)明確了這一點(diǎn)??ㄌ兀–arter)與福特(Ford)的辯論以及蒙代爾(Mondale)與里根(Reagan)的辯論都提到了這一點(diǎn)。里根和卡特發(fā)表了截然相反的聲明,盡管當(dāng)時(shí)他們并未互相辯論。(譯者注:里根屬共和黨,卡特屬民主黨。這里作者是指兩黨在墮胎問(wèn)題上的分歧由來(lái)已久。)
“我認(rèn)為墮胎是錯(cuò)誤的。政府不應(yīng)采取任何措施鼓勵(lì)墮胎。不過(guò)我不贊成就此問(wèn)題去進(jìn)行憲法修正……我個(gè)人不認(rèn)為聯(lián)邦政府應(yīng)該資助墮胎,但是我——我劃清界限并且不支持在這一問(wèn)題上進(jìn)行憲法修正。——吉米·卡特
“有關(guān)墮胎,我感覺(jué)這是——在Mondale先生政教結(jié)合的講話中,有一些相關(guān)表述,不過(guò)并沒(méi)有具體指明。對(duì)我來(lái)說(shuō),墮胎不是宗教問(wèn)題,而是憲法問(wèn)題。”——羅納德·里根
里根指出,這個(gè)問(wèn)題與憲法有關(guān),與宗教無(wú)關(guān)。而卡特的回應(yīng)則有些混亂。他明確指出,不應(yīng)當(dāng)有禁止墮胎的修正案,但政府不應(yīng)制定資助墮胎的計(jì)劃。喬治·W·布什(George W. Bush)的回應(yīng)暗示,這個(gè)問(wèn)題是社會(huì)建設(shè)的問(wèn)題,這與里根(Reagan)的回應(yīng)中提及的“憲法問(wèn)題”密切相關(guān) (譯者注:布什與里根均屬共和黨,因此政見(jiàn)相近)。希拉里·克林頓(Hillary Clinton)和邁克爾·杜卡基斯(Michael Dukakis)明確指出,就婦女的選擇權(quán)而言,這是一個(gè)問(wèn)題。阿爾·戈?duì)枺ˋl Gore)和約翰·麥凱恩(John McCain)在最高法院法官的決定性測(cè)試中談到了羅訴韋德案,并且一致認(rèn)為對(duì)羅訴韋德案的支持是任命甚至哪怕提名的關(guān)鍵指標(biāo)。
(譯者注:羅訴韋德案是因?yàn)橐粋€(gè)化名為簡(jiǎn)·羅的女士,她十多歲就生了孩子,沒(méi)多久就離婚了,孩子五歲就給父母去帶了,她自己經(jīng)濟(jì)條件也不怎么好。不巧的是,這時(shí)候她又意外懷孕,自己都養(yǎng)不活的她就想去墮胎,可是她所在的德州是不允許墮胎的,除非在關(guān)乎孕婦生命的情況下。在兩名女權(quán)主義者的鼓勵(lì)和幫助下她提出了訴訟,這起訴訟的檢察官叫韋德,這也是“羅訴韋德案”這個(gè)名字的來(lái)源。資料源)
“我認(rèn)為推動(dòng)一種生活文化很重要。我認(rèn)為一個(gè)包容的社會(huì)是其中每個(gè)人都被在乎、被關(guān)注的社會(huì)。我相信在一個(gè)理想的世界中,每個(gè)孩子都受到法律的保護(hù),每個(gè)孩子來(lái)到這個(gè)世界都會(huì)受到人們的熱烈歡迎?!薄獑讨巍·布什
“當(dāng)那些嚴(yán)格的憲法解釋者使用的短語(yǔ)和Scalia以及Thomas之類的姓氏被作為誰(shuí)會(huì)被任命的標(biāo)準(zhǔn)時(shí),我想說(shuō)這都是無(wú)稽之談。并且,每個(gè)人都要明白,那就是州長(zhǎng)絕不可能任命那些會(huì)推翻羅訴韋德案的人。這點(diǎn)對(duì)我來(lái)說(shuō)非常明確。我任命的官員都將認(rèn)可羅訴韋德案的判決結(jié)果?!薄枴じ?duì)?/p>
“我會(huì)考慮任何有資質(zhì)的人。我不認(rèn)為支持羅訴韋德案的某些人是合格的提名者?!薄s翰·麥凱恩
巴拉克?奧巴馬(Barack Obama)承認(rèn),雙方在防止意外懷孕方面存在分歧,但不排除存在共同觀點(diǎn)的潛在可能。
“這個(gè)問(wèn)題——聽(tīng)著,它使我們分道揚(yáng)鑣。在某些方面,的確,要調(diào)和這兩種觀點(diǎn)可能很困難……‘我們應(yīng)該適當(dāng)?shù)亟逃嗄暌淮?,傳達(dá)出性的神圣,規(guī)勸他們不應(yīng)該輕易地與人發(fā)生關(guān)系,以此來(lái)防止意外懷孕。同時(shí)確保在親生父母難以撫養(yǎng)子女的情況下,可以將子女交由他人收養(yǎng),并幫助那些愿意撫養(yǎng)子女的單身母親?!@些都是今年首次在民主黨黨綱中提及的內(nèi)容,我認(rèn)為這是我們可以找到的共同基點(diǎn),……”——巴拉克·奧巴馬
從ScatterText的視角去品讀總統(tǒng)大選辯論,可以看到其中重要的政治話題隨著時(shí)間流逝而演變發(fā)展。這啟發(fā)了我進(jìn)一步探究總統(tǒng)辯論的主題特征,分析辯論主題隨著時(shí)間如何變化,并使用針對(duì)文本分類訓(xùn)練的BERT模型根據(jù)候選人的辯詞來(lái)進(jìn)行意識(shí)形態(tài)排名。
獲取數(shù)據(jù)的第一步是爬取一個(gè)包含辯論文字稿的網(wǎng)站。我選擇的是總統(tǒng)辯論委員會(huì)這個(gè)網(wǎng)站,它的網(wǎng)站頁(yè)面很容易解析。不過(guò)這個(gè)網(wǎng)站并沒(méi)有懂王川普和瞌睡王拜登的辯論稿,因此我轉(zhuǎn)而求助于《今日美國(guó)》。我使用的爬取工具是Beautiful Soup 4(鏈接見(jiàn)最后)。具體代碼參見(jiàn)這個(gè)鏈接。
Scikit learn庫(kù)中的非負(fù)矩陣分解用于從主持人/專家組成員的相關(guān)文本中提取關(guān)鍵詞。PyTextRank庫(kù)用于為最突出的主題短語(yǔ)進(jìn)行權(quán)重評(píng)估。
我用SpaCy庫(kù)來(lái)匹配關(guān)鍵詞對(duì)應(yīng)的主題以及候選人的具體回應(yīng)。關(guān)鍵詞和主題的確定參見(jiàn)這里。
文本分類模型BERT是在谷歌的CoLab GPU上訓(xùn)練得到的,其末端是一個(gè)分類層,文末給出了Notebook鏈接。
可視化結(jié)果和輸出的圖表都是用Tableau制作得到的。
專家組成員以及主持人的存在使得找到每一次辯論的主題變得易如反掌。分析這些主題唯一的難點(diǎn)在于,有些術(shù)語(yǔ)的含義已然判若云泥。舉例來(lái)說(shuō),“氣候變化”如今是個(gè)普通短語(yǔ),但是在2000年總統(tǒng)辯論中,阿爾·戈?duì)枀s用其特指“全球變暖”,所以我干脆對(duì)每一次的辯論提取關(guān)鍵詞,然后將其按主題分組。在這些辯論中,一些主題總是反復(fù)被觸及,諸如:稅收,環(huán)境和氣候變化,經(jīng)濟(jì),聯(lián)邦支出,醫(yī)療保健,槍支管制,移民,國(guó)防,石油與石油工業(yè),公共教育,種族與歧視以及社會(huì)福利。
通過(guò)給每一場(chǎng)辯論中主持人和專家組成員的語(yǔ)句建立主題模型,并將其中的關(guān)鍵詞進(jìn)行分組,我最終確定了這些主題詞匯。下面是一個(gè)奧巴馬和羅姆尼辯論主題詞的示例:
gas prices, specific examples, financial problems, the difference, american jobs, productive members, vast array, clear choice, quick response, red lines, other things, everyday living, your energy secretary, your energy, tax revenue, the biggest, the biggest misperception, own plan, his own plan, lower gas prices |
這里,我使用PyTextRank簡(jiǎn)化全文,并且只保留權(quán)重分?jǐn)?shù)大于0.1的短語(yǔ)。主題建模很混亂,因?yàn)槲谋痉浅O∈?,而辯論主題的設(shè)計(jì)往往涵蓋了很多領(lǐng)域。相鄰主題之間的相關(guān)度很低,但突出的文字顯示了有關(guān)經(jīng)濟(jì)和油價(jià)的討論的廣泛度。我使用SpaCy匹配模式將這些詞匯編碼為主題。根據(jù)主持人所用的詞匯,下面列出了與“社會(huì)福利”主題相關(guān)的匹配模式。
matcher.add(“Social Welfare”,None,[{“LOWER”:”social”},{“LOWER”:”security”}]) matcher.add(“Social Welfare”,None,[{“LOWER”:”housing”},{“LOWER”:”subsidies”}]) matcher.add(“Social Welfare”,None,[{“LOWER”:”minimum”},{“LOWER”:”wage”}]) matcher.add(“Social Welfare”,None,[{“LOWER”:”prevailing”},{“LOWER”:”wages”}]) matcher.add(“Social Welfare”,None,[{“LOWER”:”abnormal”},{“LOWER”:”poverty”}]) |
所有總統(tǒng)辯論的話題占比均除以了對(duì)應(yīng)候選人總數(shù)的占比
得到這些主題關(guān)鍵詞后,我遍歷了所有辯論中的總統(tǒng)候選人回應(yīng),并計(jì)算了每個(gè)主題中匹配詞出現(xiàn)的頻率。從上圖可以明顯看出,多年來(lái),經(jīng)濟(jì)、稅收和聯(lián)邦支出等廣泛的國(guó)內(nèi)主題構(gòu)成了候選人回應(yīng)的近50%。這些主題進(jìn)一步催生了諸多有關(guān)國(guó)內(nèi)政策的辯論。第二大主題是醫(yī)療保健(上圖中綠色部分),占比13.8%。公共教育是討論涉及最少的話題,其百分比低于0.86%。
為了衡量每場(chǎng)辯論中實(shí)質(zhì)性內(nèi)容(而不是人身攻擊或?qū)Τ常┑臄?shù)量,我查看了候選人的回應(yīng)與主題詞相匹配的頻率。當(dāng)然了,匹配率肯定不會(huì)達(dá)到100%,因?yàn)檫x擇的這些關(guān)鍵字不可能涵蓋所有可能的辯論問(wèn)題。但是,看看匹配程度對(duì)我們衡量辯論的質(zhì)量多少還是有點(diǎn)用處的。
主題關(guān)鍵詞與候選人回應(yīng)相匹配的效率,可以視作辯論含有多少實(shí)質(zhì)性內(nèi)容的指標(biāo)(譯者注:可以該效率理解為匹配的頻次,上圖展示了美式民主辯論的式微,實(shí)質(zhì)性討論總體在不斷減少)
與之后的辯論相比,早期的總統(tǒng)辯論包含更多的主題詞。1980年卡特與里根之間的辯論中回應(yīng)的匹配度達(dá)到峰值(66%)。1980年至2012年之后的辯論有接近40%的平均值,范圍從33%到46%。最低匹配度的辯論則來(lái)自于2016年克林頓-特朗普和2020年特朗普-拜登。(譯者注:懂王的辯論導(dǎo)致曲線在2016年斷崖式下降)
比較最高和最低匹配度的辯論可以看出辯論的焦點(diǎn)有多寬或多窄。1980年的辯論在有關(guān)石油行業(yè)、整體經(jīng)濟(jì)、社會(huì)福利、氣候變化以及種族/歧視的論題上進(jìn)行了很好的討論。衛(wèi)生保?。?%)和國(guó)防(7.2%)的覆蓋范圍較小。而最近的辯論中,經(jīng)濟(jì)和醫(yī)療保健是討論的很大一部分(COVID-19可能會(huì)被著重強(qiáng)調(diào))。在1980年,種族歧視和黑人失業(yè)這類種族相關(guān)的關(guān)鍵詞僅占8%。而在2020年,這一比例上升為14%(在已有的辯論中占比最高),而匹配的關(guān)鍵詞列表是:白人至上主義者、民權(quán)、黑人社區(qū)、西班牙裔和種族主義者。
BERT(Bidirectional Encoder Representations from Transformers)是一種用于自然語(yǔ)言處理的預(yù)訓(xùn)練機(jī)器學(xué)習(xí)技術(shù)。 BERT預(yù)訓(xùn)練模型可以與分類層組合以進(jìn)行文本分類。BERT模型的關(guān)鍵創(chuàng)新在于它們具有雙向編碼器識(shí)別上下文的能力,而不僅是簡(jiǎn)單的左右/右左單詞序列。這使得訓(xùn)練過(guò)程中模型可以識(shí)別單詞的上下文信息,而不是僅將單詞串在一起的順序識(shí)別出來(lái)。
BERT是一個(gè)能夠?qū)τ蓴?shù)百個(gè)符號(hào)構(gòu)成的長(zhǎng)句進(jìn)行文本分類的強(qiáng)大工具。句子的符號(hào)序列越長(zhǎng),訓(xùn)練模型所需的資源就越多。我將總統(tǒng)候選人的回應(yīng)語(yǔ)句析構(gòu)成長(zhǎng)度為192個(gè)符號(hào)的語(yǔ)塊。下面給出了經(jīng)過(guò)預(yù)訓(xùn)練的BERT模型,可從TensorFlowHub下載(譯者注:所謂“符號(hào)”,英文為token,是指句子中的單詞和標(biāo)點(diǎn)):
# More details here: bert_layer=hub.KerasLayer(‘ vocab_file=bert_layer.resolved_object.vocab_file.asset_path.numpy() do_lower_case=bert_layer.resolved_object.do_lower_case.numpy()#### is the Bert layer case sensitive? tokenizer=tokenization.FullTokenizer(vocab_file,do_lower_case) |
下面的代碼中,我造了一個(gè)TensorFlow輸入流,從而將輸入文本轉(zhuǎn)換為批輸入以進(jìn)行多線程訓(xùn)練和測(cè)試。最后一步是在BERT層之后添加一個(gè)分類器模型:
def create_model(): input_word_ids = tf.keras.layers.Input(shape=(max_tok_sequence,), dtype=tf.int32,name=”input_word_ids”) input_mask = tf.keras.layers.Input(shape=(max_tok_sequence,), dtype=tf.int32,name=”input_mask”) input_type_ids = tf.keras.layers.Input(shape=(max_tok_sequence,), dtype=tf.int32,name=”input_type_ids”) pooled_output, sequence_output = bert_layer([input_word_ids, input_mask, input_type_ids]) #### Hard code initialization seeds for reproducibility drop=tf.keras.layers.Dropout(0.2,seed=9)(pooled_output) #### tuned the hyperparameter for regularization term output=tf.keras.layers.Dense(1,activation=’sigmoid’,name=’output’,kernel_initializer=tf.keras.initializers.glorot_uniform(seed=9))(drop) #### classifier values between 0,1 model=tf.keras.Model( inputs = {‘input_word_ids’:input_word_ids, ‘input_masks’:input_mask, ‘input_type_ids’:input_type_ids}, outputs=output ) #### keras modelformatted return model model=create_model() model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=2e-5),loss=tf.keras.losses.BinaryCrossentropy(),metrics=tf.keras.metrics.BinaryAccuracy()) |
(譯者注:這里就是在BERT的尾部增加了一個(gè)Dropout層與全連接層,全連接層輸出一個(gè)值,通過(guò)Sigmoid函數(shù)確保輸出在[0, 1]區(qū)間內(nèi))
手頭已有19位候選人,我將他們分別標(biāo)記為共和黨(1)和民主黨(0)。 上述模型經(jīng)過(guò)訓(xùn)練,可以對(duì)每一場(chǎng)辯論回應(yīng)進(jìn)行分類。我僅將與關(guān)鍵詞匹配的數(shù)據(jù)用于訓(xùn)練和驗(yàn)證。而那些與關(guān)鍵詞不匹配的回應(yīng)文本則用于對(duì)這些候選人進(jìn)行意識(shí)形態(tài)分類:
分類器的輸出在0到1之間,0與1分別表示民主黨與共和黨意識(shí)形態(tài)
每位候選人將根據(jù)其辯論中的回應(yīng)得到一個(gè)意識(shí)形態(tài)分類結(jié)果(這些回應(yīng)的語(yǔ)句被劃分為多個(gè)符號(hào)長(zhǎng)度為192的語(yǔ)塊)。分類結(jié)果的中位數(shù)表明了他們對(duì)自己所在政黨的支持程度。
分類結(jié)果的中位數(shù)可以反映出候選人的發(fā)言與其所在黨派黨綱的契合度
得分顯示,邁克爾·杜卡基斯(Michael Dukakis),吉米·卡特(Jimmy Carter),比爾·克林頓(Bill Clinton)和約翰·肯尼迪(John F. Kennedy)在民主黨候選人中排名最高,其中位數(shù)得分接近零(0表示民主黨意識(shí)形態(tài)分類結(jié)果)。尼克松,里根和麥凱恩的中位數(shù)得分均在0.95以上,與共和黨最接近。杰拉爾德·福特(Gerald Ford,屬共和黨)有點(diǎn)反常,因?yàn)楦鶕?jù)他的辯論回應(yīng),他倒更像是個(gè)民主黨候選人,所以我就瞅了瞅那些導(dǎo)致他被模型分類為民主黨意識(shí)形態(tài)的相關(guān)回應(yīng)語(yǔ)句。杰拉爾德·福特的回應(yīng)包括大赦逃避兵役者和軍隊(duì)逃兵、解決世界饑荒問(wèn)題,他還多次提及為了中東和平所需遵守的“道德原則”和“道德標(biāo)準(zhǔn)”。
(譯者注:杰拉爾德·福特是美國(guó)歷史上唯一一位未經(jīng)選舉就當(dāng)上總統(tǒng)之人,水門事件致使時(shí)任總統(tǒng)尼克松辭職,副總統(tǒng)福特就這樣當(dāng)上了總統(tǒng),不過(guò)只干了兩年,就在連任競(jìng)選中敗給了民主黨候選人卡特)
歷次辯論中與自己所在黨派的意識(shí)形態(tài)最接近的來(lái)自于奧巴馬有關(guān)公共教育和大學(xué)入學(xué)話題的相關(guān)回應(yīng),這是他與麥凱恩的第三次總統(tǒng)辯論中涉及到的。如果只看共和黨候選人的話,則由川普拔得頭籌,其與希拉里·克林頓的第三次辯論淋漓盡致地展現(xiàn)了川普作為一個(gè)共和黨人的風(fēng)采。他談到了他計(jì)劃如何重新談判貿(mào)易協(xié)議、北約如何“買單”、及他將如何終止北美自由貿(mào)易協(xié)定。總的來(lái)說(shuō),在一些較長(zhǎng)的發(fā)言中更有可能得到與意識(shí)形態(tài)有較高關(guān)系的回應(yīng)語(yǔ)句,因?yàn)殚L(zhǎng)句中有更大概率包含更多的黨綱關(guān)鍵短語(yǔ)。巴拉克·奧巴馬的回應(yīng)包括“當(dāng)?shù)貙W(xué)區(qū)”、“公立學(xué)校”和“大學(xué)入學(xué)和可負(fù)擔(dān)性”。這與之前在Scattertext圖中看到的結(jié)果一致,“教育”這個(gè)詞在民主黨中得分很高。在唐納德·特朗普的聲明中,幾個(gè)得分較高的共和黨短語(yǔ)被反復(fù)強(qiáng)調(diào):“北美自由貿(mào)易協(xié)定”,“北約”,“國(guó)債”,“貿(mào)易協(xié)定”和減稅。
當(dāng)然……還有諷刺和預(yù)示
你大可把這一章節(jié)看作是總統(tǒng)大選中的人類迷惑行為。但是再仔細(xì)一想,有些地方的確不能讓人完全無(wú)視。我發(fā)現(xiàn)針對(duì)杰拉爾德·福特的這個(gè)問(wèn)題非常尖銳:
梅納德先生提問(wèn):“總統(tǒng)先生,你兩次差點(diǎn)成為刺客的槍下亡魂??墒?,你仍然反對(duì)實(shí)質(zhì)性的槍支管控?,F(xiàn)在舉國(guó)約有4千萬(wàn)槍支,而且這個(gè)數(shù)字還在以每年2.5%的比率不斷增長(zhǎng)。令人感到可悲的是,這些槍支以自衛(wèi)的名義被購(gòu)買,卻最終用于對(duì)付親戚或者朋友。有鑒于此,為什么你仍然反對(duì)實(shí)質(zhì)性槍支管制?”
在喬·拜登和唐納德·特朗普最近的辯論中,一個(gè)非常具有挑釁性的言論讓許多人無(wú)比震驚。特朗普會(huì)接受選舉結(jié)果(如果輸了的話)并愿意和平過(guò)渡權(quán)力嗎?在與希拉里·克林頓的第一次總統(tǒng)辯論中,他的回答倒是很明確:
“我的回答是,要是她贏了,我絕對(duì)會(huì)支持她的?!薄ㄆ?/p>
在與希拉里·克林頓的第三場(chǎng)總統(tǒng)辯論中,克里斯·華萊士再次提出了這個(gè)問(wèn)題,他卻表示他的競(jìng)選搭檔和女兒仍然會(huì)支持:
華萊士問(wèn)道:“你最近一次在集會(huì)上警告說(shuō),這次選舉被操縱了,希拉里·克林頓正從你那里竊取選舉成果。你的競(jìng)選伙伴彭斯州長(zhǎng)周日承諾,他,包括你在內(nèi)——這是他的原話——‘將絕對(duì)接受此次選舉的結(jié)果’。今天你女兒伊萬(wàn)卡說(shuō)了同樣的話。我想在今晚這個(gè)辯論臺(tái)上再問(wèn)你一次:你是否能夠做出同樣的承諾,你絕對(duì)絕對(duì)——先生,你絕對(duì)會(huì)接受此次選舉的最終結(jié)果嗎?”
幾乎像是2020年一個(gè)可怕的預(yù)兆似的,特朗普回答說(shuō)
“我要跟你說(shuō),我到時(shí)候就會(huì)告訴你。要保持懸念,好不好?”——川普
這更像是一個(gè)類似于“萬(wàn)圣節(jié)快樂(lè)啊”之類的回答,而不是一個(gè)令人感到踏實(shí)的“選舉日快樂(lè)”,所以我為該份代碼總結(jié)一些未來(lái)的發(fā)展方向。
文本二分類可以擴(kuò)展為多分類,比如將辯論歸類至一系列主題中。
最高法院聽(tīng)證會(huì)是否可以采用類似的路子呢?
他們是否言行一致呢?將辯論和演講中確定的主題詞與選舉后的投票與政策比較一下看看。
來(lái)自于總統(tǒng)辯論委員會(huì)的辯論稿
圖表鏈接
Jason S. Kessler “Scattertext: a Browser-Based Tool for Visualizing how Corpora Differ” arXiv:1703.00565
Jason S. Kessler “Visualizing thousands of phrases with Scattertext, PyTextRank and Phrasemachine” Medium article
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” arXiv:1810.04805
AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。