1
本文作者: AI研習(xí)社-譯站 | 2018-04-08 17:21 |
雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題Math, Stats and NLP for Machine Learning: As Fast As Possible,作者為Souman Roy。
翻譯 | 廖穎 龍珂宇 Noddleslee J叔 整理 | 凡江
機(jī)器學(xué)習(xí): 引言
聽過人們談?wù)撨^機(jī)器學(xué)習(xí),但對它的概念卻是一知半解?
想要從零開始機(jī)器學(xué)習(xí),卻被網(wǎng)絡(luò)上的海量資源沖昏頭腦?
不用擔(dān)心,我們給你們提供了機(jī)器學(xué)習(xí)從0到1系列,這個系列可以讓你從入門到精通。
現(xiàn)在就開始學(xué)習(xí)吧!
· · ·
這份指南是為了那些對機(jī)器學(xué)習(xí)感興趣,但不知如何開始的朋友們準(zhǔn)備的。我想大多厭倦在網(wǎng)上搜索大量資料的人都會有挫敗感,也放棄了有人能指引他們?nèi)绾稳腴T的希望。
這個系列的目標(biāo),就是教會你們從初學(xué)者的角度,正確學(xué)習(xí)機(jī)器學(xué)習(xí)。
· · ·
為什么說數(shù)學(xué)是必須的?
機(jī)器學(xué)習(xí)建立在一些數(shù)學(xué)的基礎(chǔ)課程上的,比如微積分,線性代數(shù),概率論,統(tǒng)計(jì)學(xué)和最優(yōu)化。這篇文章旨在幫助你們學(xué)習(xí)一些基本概念,并提供一個可在 Jupiter Notebook 上使用 python 程序設(shè)計(jì)語言的可操作方法。
第1步 : 線性代數(shù)
線性代數(shù)是在計(jì)算機(jī)里設(shè)計(jì)優(yōu)化算法的一種方式?——可以解決線性系統(tǒng)約束問題。
線性代數(shù)中你需要了解的概念:
#1 矩陣的秩;
#2 矩陣向量積;
#3 矩陣的列空間和零空間;
#4 特征值和特征向量;
#5 矩陣的奇異值分解;
這是一個了解線性代數(shù)概念的速查表:
來源:https://minireference.com/static/tutorials/linear_algebra_in_4_pages.pdf
第2步 :概率論和數(shù)理統(tǒng)計(jì)
這一數(shù)學(xué)分支是用來解決隨機(jī)分布量問題的。
概率論與數(shù)理統(tǒng)計(jì)中你需要了解的概念:
概率論:
#1 計(jì)數(shù)方法和組合方法;
#2 貝葉斯理論;
#3 隨機(jī)變量;
#4 期望;
#5 方差;
#6 條件分布和聯(lián)合分布;
#7 矩量母函數(shù);
#8 指數(shù)型分布族;
數(shù)理統(tǒng)計(jì):
#1 最大似然估計(jì);
#2 最大后驗(yàn)概率;
#3 先驗(yàn)概率和后驗(yàn)概率;
#4 抽查法;
#5 吉布斯現(xiàn)象;
#6 平均數(shù),眾數(shù),中位數(shù),方差;
這是一個了解概率論和數(shù)理統(tǒng)計(jì)概念的速查表 :
來源: http://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf
第3步 :多元微積分
經(jīng)典微積分研究變量和變化率之間的關(guān)系。但在機(jī)器學(xué)習(xí)中,我們主要使用微分運(yùn)算來求解函數(shù)的極值,使用積分運(yùn)算來求解概率模型。
多元微積分中你需要掌握的概念
#1 向量值函數(shù)
#2 偏導(dǎo)函數(shù)
#3 梯度
#4 方向梯度
#5 黑塞算子
#6 雅各比算子
#7 拉普拉斯算子(低量算子)
#8 拉格朗日乘子
來源: http://tutorial.math.lamar.edu/getfile.aspx?file=B,41,N
第4步:信息論入門
信息論是應(yīng)用數(shù)學(xué)的一個分支,它關(guān)注如何“度量“信息。
信息論中你需要掌握的概念:
#1 熵
#2 互信息
#3 信息增益
#4 KL散度(相對熵)
來源:http://tuvalu.santafe.edu/~simon/cheat_sheet_info.pdf
第5步:NLP(自然語言處理)
自然語言出來指的是利用軟件自動地處理注入講話和文本的技術(shù)。
做為對文本數(shù)據(jù)感興趣的機(jī)器學(xué)習(xí)實(shí)踐者,我們關(guān)心自然語言領(lǐng)域的工具和方法。
廣義上,利用計(jì)算機(jī)處理的任何自然語言,均視為自然語言處理,或縮寫為NLP。一個極端的理解比如說,可以簡單地通過統(tǒng)計(jì)詞頻來比較不同作者的寫作風(fēng)格。另一個極端理解是,NLP應(yīng)該包括理解完整的人類話語,至少某種程度給予有意義的回應(yīng)。
— 第9頁,利用python進(jìn)行自然語言處理,2009。
自然語言處理(NLP)指人類語言的一系列自動處理過程的集合名詞。它既包含處理人類輸出的文本,也包含輸出人類可以看的文本。
— 第18頁,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言處理, 2017。
語言學(xué)的目標(biāo)是可以將我們周圍所能大量觀察到的對話、文章文本和其他媒介特征化并對其進(jìn)行解釋。這里既包括研究人類認(rèn)知,產(chǎn)生和理解語言的能力,也包含理解語言表達(dá)方式和客觀世界的關(guān)系,還包含理解不同語言的語言結(jié)構(gòu)。
— 第3頁,統(tǒng)計(jì)自然語言處理,1999。
這些是必備的數(shù)學(xué)、統(tǒng)計(jì)自然語言處理知識。我的建議是如果你想深入探索機(jī)器學(xué)習(xí),你至少需要掌握提到的一些概念。
· · ·
你過去可能想知道機(jī)器學(xué)習(xí)到底用到了哪些數(shù)學(xué)知識,這篇文章算是給你介紹了機(jī)器學(xué)習(xí)(AI)的起步階段所需的一些數(shù)學(xué)概念。下章我會討論如何把數(shù)學(xué)概念落實(shí)到用Python編程中去,為此,也會對Python這門編程語言及其生態(tài)系統(tǒng)作介紹,敬請期待吧!
· · ·
更多文章,關(guān)注雷鋒網(wǎng) 雷鋒網(wǎng)雷鋒網(wǎng)
添加雷鋒字幕組微信號(leiphonefansub)為好友
備注「我要加入」,To be an AI Volunteer !
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。