0
雷鋒網(wǎng) AI 科技評論按:Facebook 人工智能研究院最近推出 Pythia ——一個深度學(xué)習(xí)框架,支持視覺和語言領(lǐng)域的多任務(wù)處理。其模塊化的即插即用設(shè)計能夠幫助使用者快速構(gòu)建、復(fù)制和基準(zhǔn)人工智能模型。
【 圖片來源:GitHub 所有者:Facebook 】
Pythia是什么?
Pythia 是一個視覺和語言多模式研究的模塊化深度學(xué)習(xí)框架,它建立在PyTorch之上,具有以下特點:
Model Zoo:最先進的視覺和語言模型的參考實現(xiàn),這些模型包括 LoRRA(SoQ on VQA 和 TextVQA)、Pythia模型(VQA 2018 挑戰(zhàn)獲勝者)和 BAN
多任務(wù):支持多任務(wù),允許同時訓(xùn)練多個數(shù)據(jù)集
數(shù)據(jù)集:包括對內(nèi)置的各種數(shù)據(jù)集的支持,如 VQA、VizWiz,TextVQA 、VisualDialog 等
模塊:為視覺和語言領(lǐng)域中的各種常用圖層提供實現(xiàn)方式
分布式:支持基于 DataParallel 和 DistributedDataParallel 的分布式訓(xùn)練
Unopinionated:對基于它構(gòu)建的數(shù)據(jù)集和模型實現(xiàn)不受任何影響的功能
定制化:包括自定義損失、指標(biāo)、調(diào)度、優(yōu)化器、張量板等
Pythia能做什么?
即插即用的模塊化設(shè)計,能夠使研究人員快速構(gòu)建、復(fù)制并基準(zhǔn) AI 模型。你可以使用 Pythia 為您的下一個視覺和語言多模式研究項目提供引導(dǎo)程序,也可以用作視覺和語言數(shù)據(jù)集挑戰(zhàn)賽的入門代碼庫(TextVQA 挑戰(zhàn),VQA 挑戰(zhàn));還可以用它來回答與視覺數(shù)據(jù)相關(guān)的問題和自動生成圖像注釋。
Pythia加入了近期的AI比賽(VQA Challenge 2018和Vizwiz Challenge 2018)中獲獎作品的元素。功能包括通過參考實現(xiàn)來展示之前的模型如何完成相關(guān)基準(zhǔn)測試結(jié)果,以及迅速評估新模型性能。 除了多任務(wù)處理,Pythia還支持分布式訓(xùn)練和各種數(shù)據(jù)集,以及自定義損失、指標(biāo)、調(diào)度和優(yōu)化器。
Pythia的意義?
Pythia使得進入視覺和語言子領(lǐng)域的過程變得更簡單,也使研究人員能夠?qū)W⒂诟斓脑驮O(shè)計和實驗。通過提高這些模型和結(jié)果的可重復(fù)性來加速研究進程,將使得社區(qū)更容易成功構(gòu)建系統(tǒng)并進行基準(zhǔn)測試。
通過消除這些障礙,研究人員能更快地為人們和智能機器開發(fā)新的交流方式。 同時,這項工作還將幫助研究人員開發(fā)自適應(yīng)人工智能,使得多種理解更好融合到多情境的多模理解中。除了這個開源版本,F(xiàn)acebook還計劃繼續(xù)添加工具、任務(wù)、數(shù)據(jù)集和參考模型。
具體開源鏈接:
GitHub 地址
https://github.com/facebookresearch/pythia
Pythia 官方文檔
https://learnpythia.readthedocs.io/en/latest/
安裝教程
https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR
雷鋒網(wǎng)AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。