0
對于自然語言處理領域來說,2019 年可謂是令人驚嘆的一年!
日前,NLP 專家 Elvis 盤點了 2019 年 NLP 和 ML 領域發(fā)生的大事件,涵蓋具有價值的論文、文章、工程工作、年度報告等等,并為大家呈上了值得關注和學習的一波課程和圖書資源。
針對所有的大事件,Elvis 還事無巨細地為大家一一附上了相關鏈接,誠意滿滿!
為了給大家提供一個較好的閱讀體驗,本文只附上了其中的部分鏈接,感興趣的同學可以前往原文,找到相應的鏈接地址:
https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19
本文 PDF 地址:https://github.com/omarsar/nlp_highlight
2019 年,谷歌人工智能部門針對語境化語言表征的自監(jiān)督學習任務,發(fā)布了輕量級的 BERT 模型——ALBERT(論文:《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》)。該模型主要的改進之處在于減少冗余,并且更高效地分配模型的容量。該方法在12個自然語言處理任務上,都實現(xiàn)了最先進的性能。
2019 年初,英偉達的研究人員發(fā)表了一篇著名的論文「StyleGAN」,它基于風格遷移方法,提出了一種可選的 GAN 生成架構。接著,他們在論文《Analyzing and Improving the Image Quality of StyleGAN》中對 StyleGAN 進行了改進,重新設計了生成器的歸一化過程。
圖 1:上一行為目標圖像,下一行為合成圖像
Code2Seq 是于 2019 年發(fā)表的一項非常有趣的工作,它是一種根據(jù)結構化的代碼表征生成自然語言序列的方法。Code2Seq 可以實現(xiàn)諸如自動化代碼摘要和文檔生成。
不知各位有沒有想過為生物醫(yī)學文本挖掘任務訓練一個生物醫(yī)學語言模型?2019 年,研究人員提出了一種從生物醫(yī)學文獻中提取出重要信息的語境化方法—— BioBERT。
在 BERT 發(fā)布之后,F(xiàn)acebook 的研究人員也隨即發(fā)布了 RoBERTa,它引入了新的優(yōu)化方法來改進 BERT,并在各種自然語言處理的對比基準上取得了最先進的實驗結果。
Facebook 人工智能院的研究人員近期還發(fā)布了一種基于全注意力層的方法(《Augmenting Self-attention with Persistent Memory》),從而提升 Transformer 語言模型的效率。該研究組還提出了一種使用自然語言教人工智能系統(tǒng)如何做計劃的方法(《Hierarchical Decision Making by Generating and Following Natural Language Instructions》)。
圖 2:全注意力層示意圖
可解釋性仍然是機器學習和自然語言處理領域的一個重要課題。論文《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI》給出了有關可解釋性、分類標準、未來可能的研究方向的綜述。
Sebastian Ruder 在發(fā)表的論文《Neural Transfer Learning for Natural Language Processing》中,提出了自然語言處理神經(jīng)遷移學習。
一些研究人員研發(fā)出了一種在對話語境中進行情感識別的方法《Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling》,它可以實現(xiàn)情感對話生成。另一個相關的工作《DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation》,用到了一種叫做「DialogueGCN」的圖神經(jīng)網(wǎng)絡方法來檢測對話中的情感。
谷歌人工智能量子計算團隊在「Nature」雜志上發(fā)表了一篇論文《Quantum supremacy using a programmable superconducting processor》,他們聲稱已經(jīng)研發(fā)出了一種比世界上最大的超級計算機還要快的量子計算機。
如上所述,可解釋性是神經(jīng)網(wǎng)絡架構領域需要進行大量改進的領域之一。論文《Attention is not not Explanation》討論了在語言建模中,將注意力機制作為可解釋性的一種可靠的手段的局限性。
《Neural Logic Machines》這項工作提出了一種「神經(jīng)-符號」網(wǎng)絡架構,可以在歸納學習和邏輯推理方面取得很好的性能。該模型在數(shù)組排序和尋找最短路徑任務中表現(xiàn)出色。
圖 3:神經(jīng)邏輯機的架構
論文《On Extractive and Abstractive Neural Document Summarization with Transformer Language Models》將 Transformer 語言模型應用到了提取和抽象出神經(jīng)文檔摘要的任務中。
論文《Building Machine Learning Models via Comparisons》中,研究者們還研發(fā)出了一種方法,重點研究通過比較的方法構建并訓練機器學習模型。這項技術不需要大量的「特征-標簽」數(shù)據(jù)對,而是將圖像與模型之前看到過的圖像進行比較,以確定圖像是否應該被賦予某種標簽。
Nelson Liu 及其研究伙伴發(fā)表了論文《Linguistic Knowledge and Transferability of Contextual Representations》,討論了通過預訓練的語境模型(如 BERT 和 ELMo)獲取的語言知識類型。
XLNet 是一種用于自然語言處理任務的預訓練方法,它在 20 種任務上相較于 BERT 有了進一步的提升。關于這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
DeepMind 的論文《Learning and Evaluating General Linguistic Intelligence》報告了一項廣泛的實證研究的結果,旨在評估應用于各項任務的語言理解模型。這項廣泛的分析對于更好地理解語言模型獲取的內(nèi)容非常重要,從而提高它們的效率。
VisualBERT是一種簡單而魯棒的框架,用于為「視覺-語言」任務(包括 VQA 和 Flickr30K 等)建模。該方法利用了堆疊的 Transformer 層以及注意力機制,來對齊文本片段中的元素和圖像的區(qū)域。
《To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks》通過詳細的分析對比了各種自然語言處理中的遷移學習方法,并給出了對自然語言處理從業(yè)人員的建議。
Alex Wang 和 Kyunghyun 在《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》提出了一種能夠生成高質量、流暢的語言的 BERT 實現(xiàn)。
Facebook 的研究人員發(fā)布了「XLM」的 PyTorch 實現(xiàn)代碼(https://github.com/facebookresearch/XLM),這是一種用于跨語言模型預訓練的模型。
《RL in NMT: The Good, the Bad and the Ugly》對用于神經(jīng)機器翻譯的強化學習算法進行了全面的分析。
在 JAIR 上發(fā)表的綜述論文《A Survey of Cross-lingual Word Embedding Models》中,對跨語言詞嵌入模型的訓練、評估和使用進行了全面的概述。
Gradient 平臺發(fā)表了一篇優(yōu)秀的博文「The Promise of Hierarchical Reinforcement Learning」,詳細說明了目前強化學習的局限性,也給出了一條通過分層強化學習解決這些問題的潛在出路。
很快,一些人也發(fā)布了一系列優(yōu)秀的強化學習入門教程(https://github.com/araffin/rl-tutorial-jnrr19/blob/master/1_getting_started.ipynb)。
論文《Contextual Word Representations: A Contextual Introduction》簡要介紹了語境化詞表征方法。
機器學習技術已經(jīng)被廣泛用于解決現(xiàn)實世界中的問題,但另一方面,人們也通過一些有趣和富有創(chuàng)意的方式使用機器學習。機器學習創(chuàng)意和人工智能領域中其它類型的研究同樣重要,因為歸根到底,我們希望的是構建能夠幫助我們塑造文化和社會的人工智能系統(tǒng)。
2019 年底,Gary Marcus 和 Yoshua Bengio 針對深度學習、符號人工智能和混合人工智能系統(tǒng)進行了激烈的辯論。
《2019 人工智能索引報告》最終發(fā)布了,它全面分析了人工智能的現(xiàn)狀,可以讓讀者更好地了解人工智能領域的總體進展。
常識推理仍然是一個重要的研究領域,因為我們想要構建的人工智能系統(tǒng),不僅僅要能夠根據(jù)擁有的數(shù)據(jù)進行預測,還要能夠理解并對這些決定進行推理。這種技術可以被用于人工智能對話系統(tǒng),旨在使智能體可以與人類進行更加自然的對話。Nasrin Mostafazadeh 在一篇《The Art Of AI Storytelling: How One 30 Under 30 Scientist Is Teaching Devices To Make Assumptions》采訪文中,針對嘗試推理及其應用展開了討論,其應用涉及故事描述和語言理解。
你還可以參閱論文《Explain Yourself! Leveraging Language Models for Commonsense Reasoning》,看看如何利用語言模型進行常識推理。
激活地圖集是由谷歌和 Open AI 的研究人員開發(fā)的一項技術,旨在更好地理解并可視化神經(jīng)網(wǎng)絡中神經(jīng)元之間發(fā)生的交互。
圖 4:Inception V1 分類網(wǎng)絡的激活地圖集顯示出了許多完全被實現(xiàn)了的特征(例如,電子產(chǎn)品、建筑物、食物、動物耳朵、植物和水的背景)
此外,2019 年圖靈獎獲得者 Geoffery Hinton 和 Yann LeCun 發(fā)表的獲獎演講(地址:https://fcrc.acm.org/turing-lecture-at-fcrc-2019)也值得一讀,分享圖靈獎這一殊榮的還有 Yoshua Bengio。
論文《Tackling Climate Change with Machine Learning》討論了利用機器學習處理氣候變化問題。
OpenAI 發(fā)表了一份內(nèi)容豐富的報告《Release Strategies and the Social Impacts of Language Models》,討論語言模型對社會的影響,包括有益的使用和潛在的技術濫用現(xiàn)象等主題。
情感分析技術仍然被廣為使用。Mojifier 是一個很酷炫的項目,它可以通過觀察一幅圖像檢測到其中的情感,并使用與檢測到的情感相匹配的表情替換人臉。
使用人工智能技術開展影像學研究也是 2019 年的一大趨勢。論文《Radiological images and machine learning: trends, perspectives, and prospects》很好地總結了這一研究領域的發(fā)展趨勢和前景。
紐約大學的研究人員還發(fā)布了一個 PyTorch 實現(xiàn)的深度神經(jīng)網(wǎng)絡,用于提升影像學專家在乳腺癌篩查中的工作表現(xiàn)(詳細可參考:https://medium.com/@jasonphang/deep-neural-networks-improve-radiologists-performance-in-breast-cancer-screening-565eb2bd3c9f)。MIMIC-CXR是一個重要的數(shù)據(jù)集,它包含胸部 X 光片和影像學文本報告的數(shù)據(jù)庫。
紐約時報撰寫了一篇關于 Karen Spark Jones 的文章(https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html),回憶她對自然語言處理和信息檢索做的開創(chuàng)性貢獻。
Open AI Five 成為第一個在電子競技比賽中擊敗世界冠軍的人工智能系統(tǒng)(https://openai.com/blog/openai-five-defeats-dota-2-world-champions/)。
《全球人工智能人才報告》給出了世界范圍內(nèi)人工智能人才庫和全球人工智能需求的詳細報告。
DeepMind 團隊開設了一個非常棒的播客(地址:https://deepmind.com/blog?filters=%7B%22category%22:%5B%22Podcasts%22%5D%7D),訂閱者可以討論最前沿的人工智能話題。
在人工智能的潛力方面,Demis Hassabis 接受了「經(jīng)濟學人」的采訪(https://worldin.economist.com/article/17385/edition2020demis-hassabis-predicts-ai-will-supercharge-science?utm_medium=pr&utm_source=inf-a&utm_campaign=worldin),在采訪中他談到了一些具有未來主義的想法,比如利用人工智能擴展人類的思維,也許可以為重要的科學問題尋找解決方案。
2019 年,機器學習在健康領域的應用也取得了重大的進展。例如,馬薩諸塞州的研究人員研發(fā)出了一種可以像人類一樣準確地發(fā)現(xiàn)腦出血的人工智能系統(tǒng)(https://venturebeat.com/2019/01/04/massachusetts-generals-ai-can-spot-brain-hemorrhages-as-accurately-as-humans/)。
圖 5:通過人工智能系統(tǒng)分析得到的腦部掃描結果
Janelle Shane 總結了一組「奇怪」的實驗,展示了機器學習如何以有創(chuàng)意的方式進行有趣的實驗。有時,這種實驗需要真正理解人工智能系統(tǒng)到底在做什么(和沒有做什么)。其中的一些實驗包括生成「假蛇」圖像和講笑話。
圖 6:蛇的種類
《Earth to exoplanet: Hunting for planets with machine learning》一文嘗試使用 TensorFlow 平臺上構建的機器學習模型尋找行星。
OpenAI 在《Better Language Models and Their Implications》一文中討論了發(fā)布大規(guī)模無監(jiān)督語言模型的影響(包括潛在的惡意用例)。
一篇名叫《Using Nucleus and TensorFlow for DNA Sequencing Error Correction》的 Colab 筆記本針對如何將 Nucleus 和 TensorFlow 用于「DNA 序列糾錯」給出了一個很棒的間接。關于使用深度學習架構進行 DNA 探索的更多細節(jié),請參閱博文:https://blog.floydhub.com/exploring-dna-with-deep-learning/
圖 7:我們將基于共識的 DNA 序列糾錯任務形式化定義為一個多類別分類問題。通過使用 Nucleus,我們構建了一個基因組范圍內(nèi)的歸一化堿基技術矩陣。TensorFlow 讓我們可以訓練能夠訓練一個神經(jīng)網(wǎng)絡,來預測位于窗口中間位置的正確堿基。
Alexander Rush 是一名哈佛大學的自然語言處理研究者,他撰寫了一篇關于張量問題的重要文章《Tensor Considered Harmful》,并指出了現(xiàn)有的庫怎樣暴露出了這些問題。他還提出了關于張量索引命名的建議。
這部分將重點介紹與軟件和數(shù)據(jù)集相關的事件,它們對自然語言處理和機器學習的研究和工程大有助益。
Hugging Face 發(fā)布了一種廣受歡迎的基于 PyTorch 的 Transformer 程序庫「pytorch-transformers」。它讓許多自然語言處理從業(yè)人員和研究者們可以輕松地使用最先進的通用框架(例如,BERT、GPT-2 和 XLM 等)。如果你對如何使用 pytorch-transformers 感興趣,請參閱 Roberto Silveira 的教程(https://rsilveira79.github.io/fermenting_gradients/machine_learning/nlp/pytorch/pytorch-transformer-squad/),該教程介紹了如何使用該庫進行機器理解。
圖 8:Hugging Face 的 pytorch-transformers
2019 年,谷歌發(fā)布了 TensorFlow 2.0,引入了一些新的特性。關于最佳實踐的更多信息請參閱:https://medium.com/tensorflow/effective-tensorflow-2-0-best-practices-and-whats-changed-a0ca48767aff。Francois Chollet 也撰寫了一篇關于這些新特性的詳細概述:https://colab.research.google.com/drive/1UCJt8EYjlzCs1H1d1X0iDGYJsHKwu-NO。
同時,新發(fā)布的 PyTorch 1.3 也包含大量的新特性,包括命名張量和其它的前端改進。
Allen 人工智能研究院發(fā)布了「Iconary」,這是一個可以和人類玩猜圖游戲的人工智能系統(tǒng)。這項工作結合了視覺/語言學習系統(tǒng)和常識推理。同時,他們還發(fā)表了一種新的常識推理對比基準「Abductive-NLI」。
spaCy 發(fā)布了一個新的代碼庫,將 Transformer 語言模型合并到 spaCy 中,從而能夠提取特征并在 spaCy NLP 工作流程中使用它們。這項工作是基于 Hugging Face 開發(fā)的 Transformer 庫構建的。Maximilien Roberti 也撰寫了一篇關于如何將 fast.ai 的代碼與 pytorch-transformers 結合起來的博文《Fastai with Hugging Face Transformers (BERT, RoBERTa, XLNet, XLM, DistilBERT)》。
Facebook 人工智能團隊發(fā)布了「PHYRE」,這是一種用于物理推理的對比基準,旨在通過結局各種物理難題來測試人工智能系統(tǒng)的物理推理能力。
圖 9:PHYRE-B Tier 示意圖
斯坦福自然語言處理小組發(fā)布了用于自然語言分析的 Python 代碼庫「StanfordNLP 0.2.0」。你可以在超過 70 種不同的語言上進行不同類型的語言分析(例如:詞形還原和詞性標注識別)。
GQA 是一個可視化問答數(shù)據(jù)集,用于支撐與視覺推理相關的研究。
exBERT 是一種可視化工具,用于探索 Transformer 語言模型的嵌入和注意力機制,原論文為《exBERT: A Visual Analysis Tool to Explore Learned Representations in Transformers Models》。
圖 10:exBERT 工作示意圖
Distill 平臺上發(fā)表了一篇關于如何在循環(huán)神經(jīng)網(wǎng)絡(RNN)中可視化記憶內(nèi)容的論文《Visualizing memorization in RNNs》。
Mathpix 工具可以讓你拍攝一個公式的照片,然后自動幫你升恒該公式的 Latex 代碼。
圖 11:Mathpix 工作示意圖
Parl.ai 平臺可以為涉及人工智能對話系統(tǒng)的工作托管許多流行的數(shù)據(jù)集。
Uber 的研究人員發(fā)布了開源工具 Ludwig,它使用戶可以很方便地僅僅使用幾行代碼就可以訓練并測試深度學習模型,旨在在訓練和測試模型的過程中避免任何的編碼工作。
谷歌的人工智能研究人員發(fā)布了「Natural Questions」,這是一個用于訓練并評估開放領域問答系統(tǒng)的大規(guī)模語料庫。
2019 年,數(shù)據(jù)科學作家和愛好者的數(shù)量激增。這對于我們的研究領域是非常有益的,也鼓舞了研究社區(qū)進行健康的討論和學習。
這里列舉了一些有趣的必看論文和博文:
Christian Perone 對最大似然估計(MLE)和最大后驗估計(MAP)進行了介紹,這是理解模型參數(shù)估計的重要原則。
Reiichiro Nakano 發(fā)表了博文《Neural Style Transfer with Adversarially Robust Classifiers》,討論了具有對抗性魯棒分類器的神經(jīng)風格遷移。
Saif M. Mohammad 撰寫了一系列文章(閱讀地址:https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90)討論 ACL 論文接收情況的歷時分析。
圖 12:上圖分別顯示了進行學術研究時間的平均數(shù)、中位數(shù),以及首次發(fā)表論文的人數(shù)占總人數(shù)的比例。
有一個值得思考的問題是:語言模型能學會語法嗎?《Finding Syntax with Structural Probes》使用結構化探測技術,旨在說明使用上下文語境表征和查找樹結構的方法實現(xiàn)這一目標是可能的。
Andrej Karpathy 撰寫了一篇博文《A Recipe for Training Neural Networks》總結了如何高效訓練神經(jīng)網(wǎng)絡的最佳實踐和方法。
谷歌人工智能部門的研究人員和其它研究人員合作,使用 BERT 模型來改進對搜索的理解,像 BERT 這種語境化的方法可以理解搜索查詢背后的意圖。
Rectified Adam(RAdam)是一種基于 Adam 優(yōu)化器的新型優(yōu)化技術,有助于改進人工智能架構。研究者們在提出更好、更穩(wěn)定的優(yōu)化器的方面做出了一些工作,但是作者們聲稱他們關注的是優(yōu)化的其它方面,它們對于提升收斂性同樣重要。
隨著近幾年來機器學習工具的大幅發(fā)展,對于如何實現(xiàn)能夠解決實際問題的機器學習系統(tǒng)的討論也越來越多。Chip Huyen 撰寫了《Machine Learning System Design》,重點強調(diào)了超參數(shù)調(diào)優(yōu)和數(shù)據(jù)流水線等課題。
英偉達打破了創(chuàng)建最大的語言模型的記錄,該模型訓練了數(shù)十億的參數(shù)。
Abigail See 撰寫了博文《What makes a good conversation?》,討論了如何在為執(zhí)行自然語言生成任務開發(fā)的系統(tǒng)環(huán)境下實現(xiàn)良好的人機對話。
谷歌人工智能團隊發(fā)表了兩個自然語言對話數(shù)據(jù)集,旨在使用更復雜、更自然的對話數(shù)據(jù)集提升數(shù)字助理等對話應用程序的個性化程度。
深度強化學習仍然是人工智能領域中最廣為討論的話題之一,它甚至吸引了心理學和神經(jīng)科學領域的興趣。在「Trends in Cognitive Sciences」上發(fā)表的論文《Reinforcement Learning, Fast and Slow》中,介紹了一些該領域的重要概念。
Samira Abner 撰寫了博文《From Attention in Transformers to Dynamic Routing in Capsule Nets》,總結了 Transformer 和 capsule 網(wǎng)絡背后的主要組成部分及其聯(lián)系。Adam Kosiorek 還針對堆疊化的基于 capsule 的自編碼器(一種無監(jiān)督版本的 capsule 網(wǎng)絡)撰寫了文章「Stacked Capsule Autoencoders》,并將其用于目標檢測任務。
圖 13:兩個相鄰的 capsule 層之間的連接,其中較低層有 3 類 capsule,較高層有 2 類 capsule。
研究人員在 Distill 平臺上發(fā)表了一篇互動文章「A Visual Exploration of Gaussian Processes》,旨在展示對高斯過程的可視化探索。
通過在 Distill 平臺上發(fā)表的《Open Questions about Generative Adversarial Networks》,Augustus Odena 呼吁研究人員解決關于對抗生成網(wǎng)絡(GAN) 的重要開放性問題。
研究人員使用 PyTorch 框架實現(xiàn)了用于區(qū)分出垃圾郵件制造者的圖卷積網(wǎng)絡(GCN)。
2019 年初,VentureBeat 發(fā)布了一份由 Rumman Chowdury、Hilary Mason、Andrew Ng 以及 Yan LeCun 提出的 2019 年預測列表(https://venturebeat.com/2019/01/02/ai-predictions-for-2019-from-yann-lecun-hilary-mason-andrew-ng-and-rumman-chowdhury/)?,F(xiàn)在,大家可以看看他們的預測是否正確。
《Multi-label Text Classification using BERT- The Mighty Transformer》提出的模型學著如何調(diào)整 BERT 以執(zhí)行多標簽文本分類任務。
由于 BERT 的盛行,在過去的幾個月中,許多研究人員開發(fā)了對BERT 進行「壓縮」的方法,旨在建立更快、更小、內(nèi)存效率更高的版本。Mitchell A.Gordon 撰寫了《All The Ways You Can Compress BERT》一文,總結了壓縮的類型和圍繞這一目標開發(fā)的方法。
超級智能仍然是專家們爭論的重要課題。該課題需要對框架、政策有正確的理解,并且進行仔細的觀察。K.Eric Drexler 以科技報告的形式撰寫了一系列有趣的綜合性論文《Reframing Superintelligence Comprehensive AI Services as General Intelligence》,對于理解圍繞超級智能主題的一些問題和思考是很有幫助的。
Eric Jang 撰寫了博文《Meta-Learning in 50 Lines of JAX》,介紹了元學習的概念,旨在構建并訓練不僅可以預測、也可以學習的機器學習模型。
Sebastian Ruder 撰寫了一份 AAAI 2019 亮點工作總結,閱讀地址:https://ruder.io/aaai-2019-highlights/。
圖神經(jīng)網(wǎng)絡是 2019 年最火的話題之一。David Mack 撰寫了《Finding shortest paths with Graph Neural Networks》一文,介紹了他們?nèi)绾问褂眠@種技術和注意力機制一起計算最短路徑。
貝葉斯方法仍然是一個有趣的課題,特別是如何將它們應用于神經(jīng)網(wǎng)絡,從而避免像過擬合這樣的常見問題。Kumar Shridhar 針對這一話題給出了一個閱讀材料的推薦列表:https://medium.com/neuralspace/bayesian-neural-network-series-post-1-need-for-bayesian-networks-e209e66b70b2。
圖 14:以點估計作為權重的網(wǎng)絡 vs 以概率分布為權重的網(wǎng)絡
在 2019 年中,也許道德規(guī)范是人們針對人工智能系統(tǒng)討論的最多的話題之一,包括偏見、公平性、透明度等問題。關于這一部分,本文將列舉出一些相關的有趣故事和論文:
論文《Does mitigating ML’s impact disparity require treatment disparity?》通過在真實世界數(shù)據(jù)集上進行實驗,討論了應用不同學習過程得到的結果。
Hugging Face 發(fā)表了文章《Ethical analysis of the open-sourcing of a state-of-the-art conversational AI》,討論在用于對話人工智能的開源自然語言處理場景下的道德問題。
隨著我們不斷向社會引進基于人工智能的技術,能夠量化道德倫理在人工智能研究中的作用是非常重要的。論文《On Quantifying and Understanding the Role of Ethics in AI Research: A Historical Account of Flagship Conferences and Journals》對量化道德倫理的措施和「與倫理相關的研究在引領人工智能、機器學習和機器人領域中的作用」進行了深入的分析。
NAACL 2019 上發(fā)表的論文《Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them》討論了去偏方法可以如何消除詞嵌入中的性別偏置。
讀者可以聽一聽 Zachary Lipton 關于其論文《Troubling Trends in ML Scholarship》的報告(https://www.youtube.com/watch?v=A2Jtqi_oa2Y])。我也曾對這篇有趣的論文進行了總結:《An Overview of Troubling Trends in Machine Learning Scholarship》。
Gary Marcus 和 Ernest Davis 發(fā)表了他們的新書《Rebooting AI: Building Artificial Intelligence We Can Trust》。這本書的主題是討論我們?yōu)榱藢崿F(xiàn)魯棒的人工智能必須采取的措施。
關于人工智能未來的發(fā)展,F(xiàn)rancois Chollet 也撰寫了一篇令人印象深刻的論文《On the Measure of Intelligence》。
Andrew Trask 在優(yōu)達學城上開設了有關差分隱私保護、聯(lián)邦學習、以及加密人工智能的課程《Secure and Private AI》。關于隱私這一話題,Emma Bluemke 撰寫了博文《PRIVACY-PRESERVING AI IN MEDICAL IMAGING: FEDERATED LEARNING, DIFFERENTIAL PRIVACY, AND ENCRYPTED COMPUTATION》,討論了如何在保護患者隱私的同時訓練機器學習模型。
2019 年初,Mariya Yao 的博文《RECENT BREAKTHROUGH RESEARCH PAPERS IN AI ETHICS》中,給出了一份包含人工智能倫理的研究論文清單。雖然這些參考論文的清單是自 2018 年統(tǒng)計的,但我相信它在今天仍然具有意義。
最后為大家呈上 2019 年新更新的一些 ML/NLP 學習資源:
卡內(nèi)基梅隆大學發(fā)布了他們的《自然語言處理神經(jīng)網(wǎng)絡》課程的教學材料和大綱。
Elvis Saravia 和 Soujanya Poria 發(fā)布了一個名為「NLP-Overview」的項目,旨在為學生和從業(yè)者提供應用于自然語言處理的現(xiàn)代深度學習技術的簡要概述,包括理論、算法、應用和最新成果(相關地址:https://github.com/omarsar/nlp_overview)。
圖 15:NLP 概述
微軟研究院發(fā)布了一本關于數(shù)據(jù)科學基礎的免費電子書(https://www.datasciencecentral.com/profiles/blogs/new-book-foundations-of-data-science-from-microsoft-research-lab),主體涵蓋了從馬爾科夫鏈蒙特卡洛方法到隨機圖的方方面面。
《機器學習的數(shù)學》是一本免費電子書,介紹了機器學習中最重要的數(shù)學概念。它還包含了一些描述機器學習部件的 Jupyter notebook 教程。
Jean Gallier 和 Jocelyn Quaintance 撰寫了一本內(nèi)容豐富的免費電子書《Algebra, Topology, Differential Calculus, and Optimization Theory For Computer Science and Machine Learning》,內(nèi)容涵蓋了機器學習中使用到的數(shù)學概念。
斯坦福大學發(fā)布了《自然語言理解》課程的相關視頻:https://www.youtube.com/playlist?list=PLoROMvodv4rObpMCir6rNNUlFAn56Js20。
OpenAI 整理了一份關于如何保持并提高機器學習技能的推薦閱讀列表:https://openai.com/blog/learning-day/。顯然,他們的員工每天都在使用這些方法不斷學習并擴展他們的知識。
圖 16:OpenAI 的員工在 Learning Day 做些什么?
Adrian Rosebrock 發(fā)布了一本 81 頁的指南(https://www.pyimagesearch.com/start-here/),介紹如何使用 Python 和 OpenCV 完成計算機視覺任務。
Emily m. Bender 和 Alex Lascarides 出版了一本名為《自然語言處理的語言學基礎》的書。本書的主要思想是以語義和語用為基礎,來探討自然語言處理領域中的「意義」是什么。
Elad Hazan 發(fā)表了名為《機器學習的優(yōu)化》的演講筆記,旨在將機器學習訓練呈現(xiàn)為一個具有優(yōu)美數(shù)學和符號的優(yōu)化問題。Deellearning .ai 也發(fā)布了文章《Parameter optimization in neural networks》,討論了使用可視化和互動方法進行神經(jīng)網(wǎng)絡參數(shù)優(yōu)化。
Andreas Mueller 發(fā)布了新的《應用機器學習》課程視頻列表:https://www.youtube.com/playlist?list=PL_pVmAaAnxIQGzQS2oI3OWEPT-dpmwTfA。
Fast.ai 發(fā)布了名為《Deep Learning from the Foundations》的新慕課。
麻省理工學院發(fā)布了其課程《Introduction to Deep Learning》的教學視頻和大綱(https://www.youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI)。
Chip Huyen 在推特上發(fā)布了一系列優(yōu)質的機器學習入門免費在線課程:https://twitter.com/chipro/status/1157772112876060672。
Andrew Trask 發(fā)布了他名為《Grokking Deep Learning》的新書。本書是一本理解神經(jīng)網(wǎng)絡架構基本構建模塊的入門書。
Sebastian Raschka 上傳了 80 份關于如何實現(xiàn)不同的深度學習模型(例如,RNN 和 CNN)的筆記(https://github.com/rasbt/deeplearning-models)。最棒的是,這些模型都是使用 PyTorch 和 TensorFlow 框架實現(xiàn)的。
教程《Understand TensorFlow by mimicking its API from scratch》可以幫助大家深度了解 TensorFlow 的工作機制。Christian Perone 也為 PyTorch 撰寫了一份教程:http://blog.christianperone.com/2018/03/pytorch-internal-architecture-tour/。
Fast.ai 還發(fā)布了一份名為《Intro to NLP》的課程,主題包括情感分析、主題建模、Transformer 等。
Xavier Bresson 的演講談到了如何使用圖卷積網(wǎng)絡進行分子生成,視頻鏈接:https://ipam.wistia.com/medias/excbyr8gvv。此外,論文《Pre-training Graph Neural Networks》也討論了如何預訓練圖神經(jīng)網(wǎng)絡。
就圖神經(jīng)網(wǎng)絡而言,一些工程師使用它們來預測分子和晶體的性質。谷歌人工智能團隊還發(fā)表了博文《Learning to Smell: Using Deep Learning to Predict the Olfactory Properties of Molecules》,來解釋他們?nèi)绾问褂脠D神經(jīng)網(wǎng)絡進行氣味預測。如果讀者對圖神經(jīng)網(wǎng)絡感興趣,請參下面這篇關于不同的圖神經(jīng)網(wǎng)絡及其應用的全面概述:https://arxiv.org/pdf/1812.08434.pdf。
約翰霍普金斯大學的 Rene Vidal 發(fā)布了一份關于無監(jiān)督學習方法(如 PCA)的視頻播放列表:https://www.youtube.com/playlist?list=PLFInMJnvb3owAddRh4qk2gCX25kGLDay-。
如果你對于將一個預訓練好的 TensorFlow 模型轉換成 PyTorch 模型感興趣,那么 Thomas Wolf 的這篇博文會對你有所幫助:https://medium.com/huggingface/from-tensorflow-to-pytorch-265f40ef2a28。
想了解生成式深度學習嗎?David Foster 的新書《Generative Deep Learning》告訴數(shù)據(jù)科學家們?nèi)绾螌⑸蓪咕W(wǎng)絡(GAN)和編碼器-解碼器模型用于執(zhí)行繪畫、協(xié)作、作曲等任務。本書附帶的官方 TensorFlow 代碼倉庫、PyTorch 版代碼。
下面這份 Colab 筆記本文件包含實現(xiàn)并學習因果推理概念(如干預、反事實等)的代碼塊:https://colab.research.google.com/drive/1rjjjA7teiZVHJCMTVD8KlZNu3EjS7Dmu#scrollTo=T9xtzFTJ1Uwf。
Sebastian Ruder,Matthew Peters,Swabha Swayamdipta 和 Thomas Wolf 等人提供的 NAACL 2019 《自然語言處理中的遷移學習》教程材料鏈接:https://github.com/huggingface/naacl_transfer_learning_tutorial。他們還給出了一個用于入門的配套的谷歌 Colab 筆記本文件:https://colab.research.google.com/drive/1iDHCYIrWswIKp-n-pOg69xLoZO09MEgf。
Jay Alammar 發(fā)表了一篇關于數(shù)據(jù)表征的博文《A Visual Intro to NumPy and Data Representation》。他還撰寫了許多有趣的插圖指南(GPT-2:https://jalammar.github.io/illustrated-gpt2/。BERT:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/)。
Peter Bloem 還發(fā)表了一篇非常詳細的博文《TRANSFORMERS FROM SCRATCH》,解釋了 Transformer 的組成部分。
圖 18:自注意力機制的示意圖
Mihail Eric 在《Trends in Natural Language Processing: ACL 2019 In Review》中,對 ACL 2019 上體現(xiàn)出來的自然語言處理領域發(fā)展趨勢進行了很好的概述。相關的主題包括將知識引入自然語言處理架構、可解釋性、減少偏置等等。如果讀者對此感興趣,請參閱:(1)https://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2019-7a14eb20fce8(2)http://noecasas.com/post/acl2019/
斯坦福大學發(fā)布了 CS231n 2019 版的完整教學大綱:http://cs231n.stanford.edu/syllabus.html
David Abel 發(fā)布了 ICLR 2019 的一系列筆記:https://david-abel.github.io/notes/iclr_2019.pdf。他也給出了一份很棒的 NeurIPS 2019 總結:https://david-abel.github.io/notes/neurips_2019.pdf。
《動手學深度學習》是一本很棒的書,為讀者介紹了深度學習的相關知識,并附有 notebook 代碼。
圖 19:動手學深度學習
關于 BERT、ELMo、以及自然語言處理遷移學習的插圖指南,請參閱:http://jalammar.github.io/illustrated-bert/。
圖 20:自然語言處理中的遷移學習
Fast.ai 發(fā)布了2019 版的《程序員使用深度學習》課程。
Pieter Abbeel 和其他人一起教授的深度無監(jiān)督學習課程鏈接如下:https://sites.google.com/view/berkeley-cs294-158-sp19/home。
Gilbert Strang 發(fā)布了一本關于線性代數(shù)和神經(jīng)網(wǎng)絡的新書:http://math.mit.edu/~gs/learningfromdata/'。
加州理工學院發(fā)布了他們的《機器學習基礎》課程的完整的教學大綱、課程幻燈片和視頻播放列表:http://tensorlab.cms.caltech.edu/users/anima/cs165.html。
《Scipy Lecture Notes》是一套教你如何掌握「matplotlib」、「Numpy」、「Scipy」等工具的教程。
如果讀者想要理解高斯過程,請參閱教程《Understanding Gaussian processes》及附帶的代碼。
Lilian Wang 在博文《Generalized Language Models》中深入介紹了生成式語言模型(如 ULMFit、OpenAI GPT-2、BERT),這是一篇必讀的文章。
「Paper with Code」網(wǎng)站展示了一些精選的機器學習論文及其代碼,并給出了目前最先進的模型的結果。
Christoph Molnar 發(fā)布了第一版的《Interpretable Machine Learning》,這是一本涉及用于更好地解釋機器學習算法的重要技術的書。
David Bamman 發(fā)布了加州大學伯克利分校自然語言處理課程的完整教學大綱和幻燈片:http://people.ischool.berkeley.edu/~dbamman/nlp18.html。
加州大學伯克利分校發(fā)布了他們的《應用自然語言處理》課程的全部材料:https://github.com/dbamman/anlp19。
Aerin Kim 是微軟的一名高級研究工程師,他住那些了與應用數(shù)學和深度學習相關的一系列文章:https://towardsdatascience.com/@aerinykim。起主題主要包括條件獨立、伽馬分布、復雜度等。
Tai-Danae Bradley 的博文《Matrices as Tensor Network Diagrams》,討論了如何思考矩陣和張量。這篇文章用到了一些酷炫的可視化效果,有助于更好地理解矩陣上執(zhí)行的某些變換和操作。
圖 21:矩陣和張量
2019 已經(jīng)過去,2020 年作為 AI 界 主力軍之二的 ML、NLP 又將迎來哪些具有歷史性的時刻和值得關注的工作呢?我們拭目以待吧!
Via https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。