0
本文作者: 小東 | 2016-12-19 14:53 |
如今,開源已經(jīng)成為創(chuàng)新與技術(shù)發(fā)展的核心。在本文中,雷鋒網(wǎng)將介紹 2016 Python 前20大機(jī)器學(xué)習(xí)開源項(xiàng)目。
去年 KDnuggets 評(píng)選了前 20 大機(jī)器學(xué)習(xí)開源項(xiàng)目(Python版),今年的評(píng)選結(jié)果與去年相比,名單中出現(xiàn)了一些新的面孔,有13個(gè)新開源項(xiàng)目入圍了這個(gè)名單。作者 Prasad Pore 將具體介紹這些開源項(xiàng)目,雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
第一名:Scikit-learn
Scikit-learn可以說是一款簡單而高效的數(shù)據(jù)挖掘與分析工具,大家可以免費(fèi)下載安裝,使用它處理各種數(shù)據(jù),使用時(shí)需引入 NumPy, SciPy, and matplotlib這些第三方開源模塊。
提交: 21486 貢獻(xiàn): 736 Github URL: Scikit-learn
第二名:Tensorflow
Tensorflow是由谷歌大腦與谷歌人工智能實(shí)驗(yàn)室的科研人員研發(fā)而成的,這個(gè)系統(tǒng)用于機(jī)器學(xué)習(xí)的研究,可以簡單、快速的實(shí)現(xiàn)研究人員的想法。前段時(shí)間恰逢Tensorflow一周年,雷鋒網(wǎng)也做過報(bào)道和回顧。
提交: 10466 貢獻(xiàn): 493 Github URL: Tensorflow
第三名:Theano
Theano可以對(duì)那些高維數(shù)組數(shù)學(xué)表達(dá)式進(jìn)行定義、優(yōu)化與評(píng)估。
提交: 24108 貢獻(xiàn): 263 Github URL: Theano
第四名:Caffe
Caffe是一款具有表達(dá)、加速、模塊化思想的深度學(xué)習(xí)框架,由 Berkeley Vision and Learning Center (BVLC)于社區(qū)志愿者共同開發(fā)維護(hù)。
提交: 3801 貢獻(xiàn): 215 Github URL: Caffe
第五名:Gensim
Gensim是一個(gè)免費(fèi)的Python庫,這個(gè)庫可以實(shí)現(xiàn)文本的情感傾向判斷,相似文本檢索等功能。
提交: 2702 貢獻(xiàn): 145 Github URL: Gensim
第六名:Pylearn2
Pylearn2 也是一個(gè)機(jī)器學(xué)習(xí)的開源庫,但它是一個(gè)基于Theano的庫,所以它有一些Theano的特點(diǎn),你可以使用數(shù)學(xué)表達(dá)式來寫Pylearn2插件,Theano會(huì)自動(dòng)對(duì)你寫的表達(dá)式進(jìn)行優(yōu)化,按照你的選擇(用CPU或GPU)對(duì)這些表達(dá)式進(jìn)行編譯。
提交: 7100 貢獻(xiàn): 115 Github URL: Pylearn2
第七名:Statsmodels
Statsmodels是一款Python開源工具,可以實(shí)現(xiàn)數(shù)據(jù)探究、統(tǒng)計(jì)模型評(píng)價(jià)、性能測(cè)試等功能,擴(kuò)展性能良好,可對(duì)各種類型的數(shù)據(jù)進(jìn)行各種處理,例如描述統(tǒng)計(jì)、統(tǒng)計(jì)測(cè)試、繪圖、結(jié)果統(tǒng)計(jì)等等。
提交: 8664 貢獻(xiàn): 108 Github URL: Statsmodels
第八名:Shogun
Shogun是一款機(jī)器學(xué)習(xí)工具,其包含了各種機(jī)器學(xué)習(xí)方法。它可以簡單的實(shí)現(xiàn)多種數(shù)據(jù)表示、多種算法的無縫融合。
提交: 15172 貢獻(xiàn): 105 Github URL: Shogun
第九名:Chainer
Chainer是一個(gè)基于Python的開源深度學(xué)習(xí)框架,它可以讓你以一種靈活、簡單、快速的方式實(shí)現(xiàn)多種深度學(xué)習(xí)模型,包括RNN與各種自編碼。
提交: 6298 貢獻(xiàn): 84 Github URL: Chainer
第十名:NuPIC
NuPIC是一個(gè)基于Hierarchical Temporal Memory理論的開源項(xiàng)目,目前Hierarchical Temporal Memory這個(gè)理論中的部分功能已經(jīng)實(shí)現(xiàn),并進(jìn)行了測(cè)試與應(yīng)用,其它部分正在完善中。
提交: 6088 貢獻(xiàn): 76 Github URL: NuPIC
第十一名:Neon
Neon是一款深度學(xué)習(xí)第三方庫,在進(jìn)行高性能計(jì)算時(shí)它具有簡單易用的特點(diǎn)。
提交: 875 貢獻(xiàn): 47 Github URL: Neon
第十二名:NiLearn
NiLearn主要用于處理醫(yī)學(xué)圖像數(shù)據(jù),具有簡單、快速的特點(diǎn)。它通過調(diào)用scikit-learn進(jìn)行多元統(tǒng)計(jì)分析(例如:預(yù)測(cè)模型、分類、解碼、關(guān)聯(lián)分析)。
提交: 5254 貢獻(xiàn): 46 Github URL: NiLearn
第十三名:Orange3
Orange3是一款機(jī)器學(xué)習(xí)與數(shù)據(jù)可視化開源工具,可以對(duì)數(shù)據(jù)進(jìn)行各種交互分析。
提交: 6356 貢獻(xiàn): 40 Github URL: Orange3
第十四名:Pymc
Pymc是一個(gè)貝葉斯統(tǒng)計(jì)模型(包括馬爾科夫鏈)庫,具有靈活、擴(kuò)展性能好的特點(diǎn)。
提交: 2701 貢獻(xiàn): 37 Github URL: Pymc
第十五名:PyBrain:
PyBrain是一個(gè)機(jī)器學(xué)習(xí)庫,它的目標(biāo)是讓算法的實(shí)現(xiàn)變的簡單、靈活、高效。同時(shí)使得在特定環(huán)境下對(duì)算法的測(cè)試與比較也變的簡單、靈活、高效。
提交: 984 貢獻(xiàn): 31 Github URL: PyBrain
第十六名:Fuel
Fuel主要用于算法與輸入數(shù)據(jù)之間的銜接。它將被Blocks and Pylearn2這兩個(gè)Python庫使用。
提交: 1053 貢獻(xiàn): 29 Github URL: Fuel
第十七名: PyMVPA
PyMVPA 適用于大規(guī)模的數(shù)據(jù)集,具有擴(kuò)展性能好優(yōu)點(diǎn),提供多種算法(分類、回歸、特征選擇、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)導(dǎo)出等)接口。
提交: 9258 貢獻(xiàn): 26 Github URL: PyMVPA
第十八名:Annoy
Annoy是一個(gè)Python可調(diào)用的C++庫,主要用來對(duì)給定數(shù)據(jù)進(jìn)行搜索。它可以生成大量的基于文檔的可讀數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)與內(nèi)存相對(duì)應(yīng),從而使數(shù)據(jù)被共享。
提交: 365 貢獻(xiàn): 24 Github URL: Annoy
第十九名:Deap
Deap是一款新的計(jì)算框架,它使得算法實(shí)現(xiàn)與數(shù)據(jù)結(jié)構(gòu)變得簡單明了。它采用的是并行處理機(jī)制。
提交: 1854 貢獻(xiàn): 21 Github URL: Deap
第二十名:Pattern
Pattern是一款web信息挖掘工具,它集成了各種工具。這些工具可以用來進(jìn)行數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)分析。
提交: 943 貢獻(xiàn): 20 Github URL: Pattern
如下圖所示,PyMVPA的社區(qū)貢獻(xiàn)率最高,而排名第一的Scikit-learn社區(qū)貢獻(xiàn)率卻很低,究其原因是PyMVPA是還是一個(gè)比較新的開源項(xiàng)目,還有一些地方需要完善、修復(fù)。而Scikit-learn則是一個(gè)相對(duì)來說比較成熟的項(xiàng)目,需要修改、完善的地方比較少。
當(dāng)我們對(duì)2015與2016的結(jié)果進(jìn)行對(duì)比(下圖),我們發(fā)現(xiàn)Pattern, PyBrain and Pylearn2這三個(gè)項(xiàng)目的貢獻(xiàn)人數(shù)與提交數(shù)均沒有變化。貢獻(xiàn)的人增加了,提交的次數(shù)也才跟著增加,這就是開源社區(qū)的神奇所在。這些新增的貢獻(xiàn)者與其提交內(nèi)容導(dǎo)致了新的思想、新的軟件的產(chǎn)生。
基于2016年20大機(jī)器學(xué)習(xí)開源項(xiàng)目的貢獻(xiàn)人數(shù)與提交數(shù),以上是雷鋒網(wǎng)整理的簡單分析。不知道到明年的評(píng)選上,又有怎樣的開源平臺(tái)會(huì)登上這個(gè)榜單呢?
via Top 20 Python Machine Learning Open Source Project
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。
簡歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。