0
本文作者: skura | 2020-01-02 18:21 |
Mike Petrucci 發(fā)布在 Unsplash 雜志上的照片
在這篇文章中,我們將看到 2019 年在 MyBridge 上最受歡迎的頂級開源機器學(xué)習(xí)項目。
實時語音克?。?3.7K??)
這個項目是 SV2TTS 論文的一個實現(xiàn),它是一個能夠?qū)崟r工作的聲碼器。使用此 repo,用戶可以在 5 秒內(nèi)克隆語音,實時生成任意談話。
網(wǎng)址:https://arxiv.org/abs/1806.04558
SV2TTS 的三階段深度學(xué)習(xí)框架允許從幾秒鐘的音頻中創(chuàng)建語音的數(shù)字表示。
網(wǎng)址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
UGATIT:具有自適應(yīng)層實例規(guī)范化的無監(jiān)督生成注意網(wǎng)絡(luò)(4.4K??)
這是 U-GAT-IT 的 TensorFlow 實現(xiàn)。本文提出了一種無監(jiān)督圖像到圖像轉(zhuǎn)換的實現(xiàn)方法,該方法增加了一個新的注意模塊和一個新的可學(xué)習(xí)的端到端的歸一化函數(shù)。
網(wǎng)址:https://arxiv.org/abs/1907.10830
注意力模塊引導(dǎo)模型關(guān)注更重要的區(qū)域,從而基于輔助分類器獲得的注意力圖來區(qū)分源域和目標(biāo)域。AdaLIN(自適應(yīng)層實例歸一化)函數(shù)幫助模型通過學(xué)習(xí)的參數(shù)控制圖像中形狀和紋理的變化量。
網(wǎng)址:https://github.com/taki0112/UGATIT
RAdam:自適應(yīng)學(xué)習(xí)速率的方差及其超越(1.9K??)
這是以下論文的一個實現(xiàn):
網(wǎng)址:https://arxiv.org/abs/1908.03265
作者提出了 Adam 的變體 RAdam。這是通過校正自適應(yīng)學(xué)習(xí)過程的方差來實現(xiàn)的。作者使用圖像分類、語言建模和神經(jīng)機器翻譯任務(wù)來獲得實驗結(jié)果。
網(wǎng)址:https://github.com/LiyuanLucasLiu/RAdam
深度學(xué)習(xí)推薦模型 Dlrm 的實現(xiàn)(1.7K??)
這是一個最先進的深度學(xué)習(xí)推薦模型——DLRM,它可以在 PyTorch 和 Caffe2 中實現(xiàn)。
網(wǎng)址:https://arxiv.org/abs/1906.00091
該模型有一個專門的并行化方案,該方案利用嵌入表上的模型并行性來遷移內(nèi)存約束。這使得數(shù)據(jù)并行性的開發(fā)能夠從完全連接的層擴展計算。
網(wǎng)址:https://github.com/facebookresearch/dlrm
TecoGAN(1.3K??)
此 repo 包含用于 TEmporally COherent GAN 的代碼。
網(wǎng)址:https://github.com/thunil/TecoGAN
視頻網(wǎng)址:https://youtu.be/pZXFXtfd-Ak
這篇論文提出了一種對抗性訓(xùn)練視頻超分辨率方案,該方案在不犧牲空間細節(jié)的前提下,實現(xiàn)了時間相干解。它還提出了一種 Ping-Pong 損失,可以在不降低感知質(zhì)量的情況下消除遞歸網(wǎng)絡(luò)中的時間偽影。
網(wǎng)址:https://arxiv.org/abs/1811.09393
Megatron-LM(1.1K??)
Megatron repo 是一個正在進行的研究項目,旨在大規(guī)模訓(xùn)練大型、功能強大的 transformer 語言模型。它目前支持 GPT2 和 BERT 的模型并行、多節(jié)點訓(xùn)練。
網(wǎng)址:https://github.com/NVIDIA/Megatron-LM
它目前能夠訓(xùn)練具有 72 個層,83 億個參數(shù)的 GPT2 語言模型,具有 8 路模型和 64 路數(shù)據(jù)并行性,它們分布在 512 個 GPU 上。它可以在 3 天內(nèi)訓(xùn)練多達 64 V100 gpu 的 BERT。Megatron 語言模型的困惑度為 3.15,F(xiàn)1 評分為 90.7。
TensorNetwork(1K??)
TensorNetwork 是一個用于實現(xiàn) tensor 網(wǎng)絡(luò)算法的開源庫。它是 TensorFlow、JAX、PyTorch 和 NumPy 的 tensor 網(wǎng)絡(luò)包裝器。
網(wǎng)址:https://github.com/google/tensornetwork
張量網(wǎng)絡(luò)是目前應(yīng)用于機器學(xué)習(xí)研究的稀疏數(shù)據(jù)結(jié)構(gòu)。目前,開發(fā)人員并不提倡在生產(chǎn)環(huán)境中使用該工具。
網(wǎng)址:https://arxiv.org/abs/1906.06329
Python_autocomplete(708?65039;)
這是一個基于 TensorFlow 項目,它的目的是測試 LSTM 自動完成 Python 代碼的能力。
網(wǎng)址:https://github.com/vpj/python_autocomplete
Buffalo (365 ??)
Buffalo 是一個快速、可擴展、面向?qū)嶋H生產(chǎn)的推薦系統(tǒng)開源項目。它有效地利用了系統(tǒng)資源,從而在低規(guī)格的機器上實現(xiàn)了高性能。
網(wǎng)址:https://github.com/kakao/buffalo
真實的神經(jīng)說話頭部模型(312??)
這是「Few-Shot Adversarial Learning of Realistic Neural Talking Head Models」一文的實現(xiàn)。這篇論文提出了一種個性化的、逼真的說話頭部模型,其目的是在給定一組人臉標(biāo)志的情況下合成具有真實感的個性化面部圖像。
網(wǎng)址:https://arxiv.org/abs/1905.08233
這個方法適用于遠程呈現(xiàn)、視頻會議、特效行業(yè)和多人游戲,它所提出的系統(tǒng)能夠以特定的方式初始化生成器和判別器的參數(shù),這使得訓(xùn)練過程中圖像能被快速地使用。
網(wǎng)址:https://github.com/vincent-thevenin/Realistic-Neural-Talking-Head-Models
展望未來
展望 2020 年,隨著機器學(xué)習(xí)工具變得更先進、更具易用性,我們肯定會遇到更多有趣的開源項目,敬請期待。
via:https://heartbeat.fritz.ai/2019s-top-open-source-machine-learning-projects-3cd082a02f78
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。