0
本文作者: AI研習(xí)社-譯站 | 2020-12-12 09:21 |
譯者:AI研習(xí)社(明明知道、Icarus、、求求你了救救孩子)
雙語原文鏈接:The Best Netflix Movies & Series to Learn English According to Data Science
截至2020年,Netflix上約有3712部電影和1845部電視節(jié)目。如果你正在學(xué)習(xí)英語,可供選擇的內(nèi)容很多,但你可能沒那么多時間去看完。因此,我用數(shù)據(jù)科學(xué)技能來分析Netflix上前1500部電影和電視節(jié)目的劇本。經(jīng)過大量的處理,我找到了Netflix上最好的英語學(xué)習(xí)內(nèi)容。這樣做的目的是為了給你提供很多好的選擇,讓你可以找到你喜歡的電影或電視節(jié)目,同時對學(xué)習(xí)英語也有好處,而不是強迫你看不喜歡的電視節(jié)目,因為你的老師和朋友堅持'它有助于大家學(xué)習(xí)英語'。
為了找到Netflix上最好的電影和電視節(jié)目,我比較了臺本對話中使用的詞匯。讓我們找到哪些是最好的電視節(jié)目和電影。
Netflix上的美國和英國電視節(jié)目都是為母語為英語的人制作的。這就是為什么如果英語不是你的母語,你在理解某些場景中的對話時可能會遇到一些困難。我根據(jù)詞匯量的難易程度對Netflix目錄上的500個一流電視節(jié)目(223部Netflix原創(chuàng)節(jié)目)進(jìn)行了排名。
《老友記》詞匯簡單,被認(rèn)為是學(xué)習(xí)英語最好的電視節(jié)目之一。然而,這部電視劇在Netflix目錄中只排在第78位,這意味著還有77部電視劇和《老友記》一樣好——甚至更好!-可以在Netflix上學(xué)習(xí)英語并享受樂趣。例如,根據(jù)我的調(diào)查結(jié)果,電視劇《去他*的世界》(排名13)或《13個原因》(排名40)在其劇集中的詞匯量甚至更簡單。
你可以在下面的框中搜索電視節(jié)目名。你會發(fā)現(xiàn)他們的排名和詞匯覆蓋率。排名前十的電視節(jié)目在整個Netflix劇集列表中詞匯最簡單。
如果你正在尋找適合你英語水平的電視節(jié)目,那么我有一個好消息要告訴你, 我對所有節(jié)目的英語詞匯量水平進(jìn)行了排名(初級、中級、高級)。最靠右的節(jié)目在每個級別上使用的詞匯量更多。覆蓋率越高,你就越容易理解電視劇中的情節(jié)。
每個級別代表1000個最常見的英語單詞。所有的電影都有所有級別的排名。1級代表 "初級水平",3級代表 "中級水平"。一集的覆蓋率越高,越容易理解其詞匯量。
黃色代表Lvl 1
紅色代表Lvl 1+2
藍(lán)色代表Lvl 1+2+3
圖: Frank Andrade 來源: 用Datawrapper創(chuàng)建的電視學(xué)習(xí)語言。
這些是在Netflix目錄中發(fā)現(xiàn)的電視節(jié)目??赡苡行┠阆矚g的電視節(jié)目不在Netflix上,但不要擔(dān)心,我已經(jīng)分析了其中一些電視節(jié)目,如《權(quán)力的游戲》或《辛普森一家》。此外,Netflix目錄在你的國家可能略有不同。這就是為什么我只列出了一個最有可能在全球范圍內(nèi)提供的Netflix原著。
以下是學(xué)習(xí)英語的十大Netflix原創(chuàng)節(jié)目
妖靈(Jinn)
愛情起床號(Good Morning Call)
魚妖怪談(Tidelands)
Easy
黑色夏天(Black Summer)
夏日時光 (Summertime)
Baby
上層男孩(Top Boy)
血統(tǒng)(Bloodline)
去他*的世界(The End Of The F*ing World)
按詞匯覆蓋率排名的Netflix電影
如果你比較喜歡看電影,那么Netflix也有很好的電影來學(xué)習(xí)英語。我把Netflix上最受歡迎的950部電影(173部Netflix原創(chuàng)電影)按照詞匯量的難度進(jìn)行了排名。排名前100的熱門電影有《蒙上你的眼 》(30)、《蜘蛛俠:平行宇宙》(84)和《當(dāng)幸福來敲門》(81)。
通過下面的方框播放,看看還有哪些電影排在前100名。你還可以發(fā)現(xiàn)你喜歡的電影的排名和詞匯覆蓋率。
你可以在下面找到適合你英語水平的電影。最右邊的電影有更多的初級、中級和高級詞匯。但這些都是在 Netflix 目錄中找到的排名靠前的電影,你不會在 Netflix 上找到像《哈利波特》、《阿凡達(dá)》、《玩具總動員》這樣的電影,但如果你還想看這類電影,你應(yīng)該看看我的另一篇文章,我分析了3000部最受歡迎的電影。你可以在這里找到它。
每一級代表 1000 個最常見的英語單詞。所有的電影都按等級排列。第 1 級代表“初級水平”,第 3 級代表“中級水平”。一集節(jié)目的收視率越高,詞匯就越容易理解。
我還列出了 Netflix 在世界范圍內(nèi)最可能提供的原創(chuàng)電影列表,以防 Netflix 的目錄在你的國家不一樣。
以下是Netflix十大最適合學(xué)英語的原創(chuàng)電影:
In The Tall Grass (2019)-在高草中
A Secret Love (2020)-隱秘的愛
Under The Riccione Sun (2020)
Dangerous Lies (2020)-危險的謊言
Bird Box (2018)-蒙上你的眼
Who Would You Take To A Deserted Island (2019)
Earthquake Bird (2019)
Love Wedding Repeat (2020)
Paddleton (2019)
6 Balloons (2018)-六個氣球
在向英語學(xué)習(xí)者展示 Netflix 上最好的內(nèi)容之前,讓我們比較一下最好的和可能最差的內(nèi)容,僅針對詞匯量難度來說。
以下圖片顯示了排名前十和后十的網(wǎng)飛原創(chuàng)電影在英語詞匯難度上的差別。正如你所看到的,在過去的 10 年中,使用的詞匯更加困難。例如,你只需要知道最常見的 1000 個英語單詞就能理解電影《
蒙上你的眼 》中 94,5% 的單詞,但你需要至少3000個單詞來涵蓋電影《Spelling The Dream 》中 94.5% 的對話。這額外的 2000 個單詞可能就是你不懂的原因——即使你的英語水平已經(jīng)很高了!
數(shù)據(jù)集
為了進(jìn)行分析,我使用了 3 個主要數(shù)據(jù)集,它們由文本、Netflix 目錄和 Netflix 原創(chuàng)列表組成。我在谷歌上搜索,直到我找到了大量用于分析的轉(zhuǎn)錄本。我用目錄來匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目錄數(shù)據(jù)集。從 2019 年開始,Netflix 上就可以看到它的內(nèi)容,所以可能有些電影或電視節(jié)目現(xiàn)在還不能在 Netflix 上看到。最后,我在這里找到了一份截至 2020 年的 Netflix 原創(chuàng)劇集列表,這對分析很有幫助。
我用 Python 做了所有這些分析,這是我準(zhǔn)備數(shù)據(jù)的方式:
Tokenization:為了分析文字記錄中的詞匯,我將字符說的所有單詞標(biāo)記化。Python中有許多用于標(biāo)記化的工具,但是我使用 CountVectorizer,因為它將收集的轉(zhuǎn)錄本轉(zhuǎn)換為標(biāo)記計數(shù)的數(shù)據(jù)格式,從而簡化了分析。在分析了 3000 部電影的文章中,我進(jìn)一步解釋了 CountVectorizer 是如何工作的。
詞形還原(Lemmatization):在標(biāo)記化之后,我必須找到每個標(biāo)記的基本形式。您可以通過使用象 lemmizing 這樣的技術(shù)來實現(xiàn)這一點,您可以在 NLTK 庫中找到這些技術(shù)。不過,我使用了類似的單詞族列表,而且還根據(jù)單詞出現(xiàn)的頻率給出了每個單詞的難度水平。到 2020 年,有 29 個單詞家族列表,你可以在這里找到。這些列表是對與語言學(xué)和英語作為第二語言學(xué)習(xí)相關(guān)的研究論文進(jìn)行評估的。
數(shù)據(jù)清理:我刪除了在電影或片段中聽不到的單詞,比如場景描述和講話者的名字。我還排除了對話中超過 3.5% 的單詞與單詞家族列表不匹配的抄本(它們可能是異常值或被破壞的數(shù)據(jù))。
所有的代碼都可以在 Github 上找到!
我用來對電視節(jié)目中的詞匯進(jìn)行分類的單詞表,大部分都來自語料庫。詞匯水平是根據(jù)一個詞在語料庫中被發(fā)現(xiàn)的頻率來確定的,即這些文本中最常見的詞被標(biāo)注為 1 級。盡管之前的研究已經(jīng)證明了該列表是可靠的,但對于具有多種含義的單詞,它并不那么準(zhǔn)確。例如,單詞 “draw” 在列表中被標(biāo)記為第 1 級。之所以會出現(xiàn)這種情況,是因為這個詞通常指“拍照”,但如果它的意思是“拿出武器來攻擊某人”或“得出結(jié)論”,那么它就不屬于第一級。
我花了幾個星期的時間尋找、清理、處理數(shù)據(jù),然后弄清楚得到的結(jié)果。然而,研究結(jié)果并不完美。關(guān)于電影的研究結(jié)果可能比電視節(jié)目更準(zhǔn)確。電影的文字記錄是獨一無二的,但電視節(jié)目播出的劇集不同,這增加了每部電視節(jié)目的文字記錄數(shù)量。這就是為什么我收集了每個節(jié)目 3 到 10 集的樣本,以獲得該電視節(jié)目平均每集涵蓋的詞匯。
總的來說,調(diào)查結(jié)果揭示了很多適合每個詞匯水平的內(nèi)容,但其中一些還是讓我吃驚。比如,《行尸走肉》排在第 62 位,這讓我很吃驚。我不是那個電視節(jié)目的粉絲,但我不認(rèn)為一個有僵尸的虛構(gòu)節(jié)目在對話中使用簡單的詞匯。在查看了文字記錄后,我證實了《行尸走肉》中對詞匯的需求在整集都有很多起伏。也就是說,有些情節(jié)可能比其他情節(jié)更難理解。
AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。