丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

本文作者: AI研習(xí)社 2017-05-13 21:18
導(dǎo)語:用大數(shù)據(jù)素描周杰倫。

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

雷鋒網(wǎng)按:本文作者冬鑫,原文載于作者知乎專欄,雷鋒網(wǎng)已獲授權(quán)。

前一段時(shí)間分析民謠歌詞的那邊文章特別火,剛好在研究使用python處理數(shù)據(jù),就也想弄個(gè)類似東西練練手。于是乎,拉上自己親妹妹 @張小黑 就開始分工。

  一、準(zhǔn)備歌詞素材

歌詞選擇:杰倫至今的所有專輯(從最開始的<JAY>到最新的<周杰倫的床邊故事>)

由于爬蟲木有學(xué)會,就只能手動(dòng)收集歌詞。經(jīng)過一系列的 google、baidu,終于找到別人整理好的歌詞全集。ok,就這樣歌詞文件搞定了,一共也沒多大,也就207K(想想周董這么多年唱的歌詞大半都在這207K的txt文件里就不免有些感慨)。

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

  二、對歌詞文件完成分詞

這是最難的部分,產(chǎn)品汪只會跟程序猿們相愛相殺,哪會寫代碼呀!?。?/p>

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

沒辦法,硬著頭皮也要寫。網(wǎng)上goolge各種關(guān)鍵字,看博客,花了半天的時(shí)間,連蒙帶猜,勉勉強(qiáng)強(qiáng)看懂了網(wǎng)上的代碼示例,比著葫蘆畫瓢寫了一點(diǎn)點(diǎn)寫。

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

千難萬險(xiǎn),終于寫完調(diào)通,最終主要的部分一共也就12行,沒有任何注釋(簡直乞丐版代碼,根本看不出來哪里sexy ~~~~(>_<)~~~~)

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

  三、對分詞的結(jié)果進(jìn)行分析

好,我們終于到了正文,以上都是廢話,下邊才是重要結(jié)論。(如果以這種方式寫郵件一定會被老板打死 ?(^?^*) )

結(jié)論一:杰倫最喜歡的唱的主題 --- 情歌 (我自己也知道這是廢話 O(∩_∩)O)

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

拉了下出現(xiàn)頻率 top20 的詞語,滿滿的都是文藝、傷感、愛情 :

我們 / 怎么 / 沒有 / 微笑 / 離開 / 愛情 / 回憶 / 不要 / 開始 / 如果 / 怎么 / 開始

我擦,感覺隨機(jī)排列組合都能成歌詞,方文山以后是不是就可以下崗了 ?(^?^*)

結(jié)論二:杰倫喜歡媽媽勝過爸爸,喜歡外婆勝過爺爺以及外公(歌詞中沒有出現(xiàn)奶奶)

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

大家應(yīng)該都聽過<聽媽媽的話>。

杰倫專門為外婆寫了一首歌<外婆>,其中也就1句歌詞提到了外公。

至于爺爺,杰倫也有那首<爺爺泡的茶>

結(jié)論三:杰倫喜歡黑色、白色勝過其他顏色

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

很符合周董的形象,歌詞里高大上的黑色&白色力壓其他顏色??吹胶诎變缮l率這么高,我第一時(shí)間想到的是<以父之名>,感覺很符合那個(gè)氣質(zhì)。還有就是青色出現(xiàn)了6次,大概率是因?yàn)?lt;青花瓷>吧。

結(jié)論四:杰倫最喜歡的語氣詞是 oh~

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

毋庸置疑,杰倫最喜歡 oh~ ,排除大小寫的因素,[oh] 出現(xiàn)的頻率甚至超過 [我們] 成為出現(xiàn)詞頻最高的詞匯。此外杰倫經(jīng)典的 "哎呦不錯(cuò)哦~" 中的 [哎呦] 也名列前茅,看來杰倫真的很喜歡講這句話。

總結(jié):只是從歌詞來看,大概杰倫就是一個(gè)穿著黑白帽衫,表面上酷酷的,但是骨子里滿是深情、文藝, 只喜歡喝爺爺泡的茶,聽媽媽的話,愛自己外婆的 ,嘴里時(shí)不時(shí)地冒出一句‘哎呦,不錯(cuò)哦’ 的 五好青年 ^_^

注:以上內(nèi)容純屬胡說八道,如有雷同,純屬巧合。

另,頭圖不是 python 生成,是使用一個(gè)國外的網(wǎng)站(wordart)生成的。文章中使用的分詞代碼、歌詞文本、頭圖已通過有道云筆記分享(文章末尾有鏈接),內(nèi)容如下:

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫           

有道云筆記鏈接:http://t.cn/RaICFIV 

TensorFlow & 神經(jīng)網(wǎng)絡(luò)算法高級應(yīng)用班” 要開課啦!

從初級到高級,理論 + 實(shí)戰(zhàn),一站式深度了解 TensorFlow!

本課程面向深度學(xué)習(xí)開發(fā)者,講授如何利用 TensorFlow 解決圖像識別、文本分析等具體問題。課程跨度為 10 周,將從 TensorFlow 的原理與基礎(chǔ)實(shí)戰(zhàn)技巧開始,一步步教授學(xué)員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型,并最終掌握一整套基于 TensorFlow 做深度學(xué)習(xí)開發(fā)的專業(yè)技能。

兩名授課老師佟達(dá)、白發(fā)川身為 ThoughtWorks 的資深技術(shù)專家,具有豐富的大數(shù)據(jù)平臺搭建、深度學(xué)習(xí)系統(tǒng)開發(fā)項(xiàng)目經(jīng)驗(yàn)。

時(shí)間:每周二、四晚 20:00-21:00

開課時(shí)長:總學(xué)時(shí) 20 小時(shí),分 10 周完成,每周 2 次,每次 1 小時(shí)

線上授課地址:http://www.mooc.ai/

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))相關(guān)閱讀:

不再收費(fèi)!MapD數(shù)據(jù)庫開源,過來人指點(diǎn)如何上手

你和真正的數(shù)據(jù)科學(xué)究竟差在哪里

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

我分析了 6.5W 字的歌詞,看到了這樣的周杰倫

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請?jiān)L問:yanxishe.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說