丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

本文作者: MrBear 編輯:楊曉凡 2018-12-13 17:18
導(dǎo)語(yǔ):今年下半年,SQuAD 2.0 橫空出世?;?Unet 的一眾模型紛紛獲得了優(yōu)異的成績(jī)。本文將對(duì) SQuAD 2.0 進(jìn)行簡(jiǎn)要的介紹,并深入剖析Unet模型。

雷鋒網(wǎng) AI 科技評(píng)論按:今年下半年,SQuAD 2.0 橫空出世?;?U-net 的一眾模型紛紛獲得了優(yōu)異的成績(jī)(截至到 BERT 屠榜之前)。一篇來(lái)自 betterlearningforlife.com 的文章對(duì) SQuAD 2.0 進(jìn)行簡(jiǎn)要的介紹,并以問(wèn)答的形式介紹了計(jì)算語(yǔ)言學(xué)與 U-net 模型相關(guān)的一些問(wèn)題。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

「在 SQUAD 上取得好成績(jī)的網(wǎng)絡(luò)架構(gòu)是什么樣的呢?」

在我開(kāi)始撰寫(xiě)本文的時(shí)候,排名前三位的模型在谷歌上沒(méi)有任何鏈接。微軟亞洲研究院的團(tuán)隊(duì)(Microsoft Research Asia team)是這三者其中之一,它們甚至還沒(méi)有在網(wǎng)站上發(fā)布它們最新的成果。我似乎有一個(gè)理論來(lái)解釋為什么,但這多少有些推測(cè)性。

幸運(yùn)的是,前四名的表現(xiàn)并沒(méi)有太大的不同,所以我們可以看看一些高性能的想法。最佳方案采用了基于 U-net 的架構(gòu),相關(guān)的論文鏈接如下:https://arxiv.org/abs/1810.06638  。本文也將從這里展開(kāi)。

「U-net 背后的思想是什么?」

在目前的機(jī)器學(xué)習(xí)架構(gòu)開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)者往往都會(huì)針對(duì)數(shù)據(jù)集構(gòu)建特定的算法架構(gòu)。U-net 也不例外,采用 U-net 架構(gòu)是為了針對(duì) Standford 提出 SQuAD 2.0 的目的。Standford 之所以會(huì)創(chuàng)建 SQuAD 2.0 是為了修復(fù)1.0中的一些缺陷。

「SQuAD 1.0 存在什么問(wèn)題呢?」

這就涉及到一些「無(wú)法回答的問(wèn)題」的難題。當(dāng)人們閱讀一段東西時(shí)(如新聞),他們可能會(huì)問(wèn)一些簡(jiǎn)單的問(wèn)題,這些問(wèn)題的答案可以直接在文本中找到。然而,他們更有可能問(wèn)一些不能直接回答的相關(guān)問(wèn)題。一個(gè)強(qiáng)大的數(shù)據(jù)集需要很好地同時(shí)對(duì)這兩者建模。如果數(shù)據(jù)集中只有已經(jīng)被回答的問(wèn)題,那么模型將學(xué)會(huì)總是給出一些在文本中能夠找到的答案。當(dāng)有人提出一個(gè)沒(méi)有直接出現(xiàn)在文本中的問(wèn)題時(shí),它自然而然地會(huì)給出錯(cuò)誤的答案。

SQuAD 1.0 中也有一些無(wú)法回答的問(wèn)題,但它們是由機(jī)器生成的,而且對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),不需要更深層的理解就很容易識(shí)別它們。許多參賽模型的性能已經(jīng)在 SQuAD 1.0 數(shù)據(jù)集上超越了人類(lèi)的水平,然而它們?cè)诂F(xiàn)實(shí)世界中的實(shí)際應(yīng)用卻沒(méi)有取得有意義的進(jìn)展。 

「Stanford 是如何改進(jìn)這個(gè)數(shù)據(jù)集的呢?」

他們?cè)黾恿?萬(wàn)個(gè)由眾包員工撰寫(xiě)的無(wú)法回答的問(wèn)題。這些問(wèn)題被設(shè)計(jì)得與可回答的問(wèn)題相類(lèi)似。

下面的例子向大家展示了一段文字以及兩個(gè)無(wú)法回答的問(wèn)題,材料來(lái)自論文「Know What You Don’t Know: Unanswerable Questions for SQuAD」(https://arxiv.org/abs/1806.03822):

文章:瀕危物種法案

摘選段落:「...其他立法緊隨其后,包括1929年的候鳥(niǎo)保護(hù)法案,1937年的禁止捕殺露脊鯨和灰鯨的條約,1940年的禿鷹保護(hù)法案。這些隨后制定的法律的社會(huì)成本很低,畢竟這些物種相對(duì)稀有,很少有人會(huì)反對(duì)這樣的法案?!?/p>

問(wèn)題 1:「哪項(xiàng)法律被極力反對(duì)?」

機(jī)器可能給出的回答:隨后制定的法律。

問(wèn)題 2:「1937 年通過(guò)的條約的名字是什么?」

機(jī)器可能給出的回答:禿鷹保護(hù)法案

「U-net 模型是如何處理這些改進(jìn)的數(shù)據(jù)集的?」

U-net 模型包含一個(gè)結(jié)合了許多最新研究進(jìn)展的有趣方法。這是一個(gè)很好的例子,告訴我們可以如何用神經(jīng)架構(gòu)創(chuàng)造性地進(jìn)行設(shè)計(jì)。

他們的模型基本上包含以下四個(gè)部分:

  • 嵌入

  • 融合

  • 多層注意力機(jī)制

  • 預(yù)測(cè)

接下來(lái)讓我們仔細(xì)看看這個(gè)模型,在我們的腦海中,讓我們從廣義概念上對(duì)模型推斷進(jìn)行思考,并想想這個(gè)系統(tǒng)是如何作為一個(gè)不同的整體的一部分與其組合在一起的。

現(xiàn)在,讓我們從頭開(kāi)始細(xì)細(xì)研究 U-net 模型。

「什么是嵌入技術(shù)?」

嵌入是降維的一種形式。例如,對(duì)使用通用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取到的「Glove」(Global Vectors for Word Representation,用于詞語(yǔ)表示的全局向量)的嵌入技術(shù)可以將大小為 1.9M 的詞匯表縮減為一個(gè) 300 維的向量。

然而,我們可以進(jìn)一步把這個(gè) 300 維的向量縮減到2維。我們可以看到,這些詞在大致相同的「方向」上會(huì)根據(jù)其意義被區(qū)分開(kāi)。 

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

Glove 的降維結(jié)果

「在人類(lèi)的思維存儲(chǔ)一些概念時(shí),會(huì)將其存儲(chǔ)為嵌入、圖模型、二者的結(jié)合還是其它形式呢?」

嵌入技術(shù)缺乏人類(lèi)大腦所擁有的一種關(guān)鍵能力。像所有的神經(jīng)網(wǎng)絡(luò)一樣,嵌入式是「分組的」近似。更改任何網(wǎng)絡(luò)權(quán)重都會(huì)更改其它輸入的輸出。

我們可以猜測(cè),人類(lèi)的大腦能夠有選擇地對(duì)某些詞匯做出一些改變。相信大家都有過(guò)和別人辯論一個(gè)詞的意思的經(jīng)歷。然后在查了字典之后,我們發(fā)現(xiàn)我們對(duì)這個(gè)詞的理解并不是通常被人們所接受的定義。從那時(shí)起,我們可以在腦海中更新對(duì)這個(gè)詞的理解,這樣的過(guò)程會(huì)一直持續(xù)下去。不可否認(rèn),「連詞」肯定會(huì)對(duì)理解有一些影響,但總的來(lái)說(shuō),我們的準(zhǔn)確率并不會(huì)下降。(讓我們大膽地想象一下。)

下面這張最近發(fā)布的大腦圖像顯示了「不同的單詞被存儲(chǔ)在大腦的各個(gè)地方」的設(shè)想。這是個(gè)有趣的想法。那么,大腦是如何防止對(duì)同一個(gè)單詞進(jìn)行重復(fù)多次的表示呢? 

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

進(jìn)行這項(xiàng)研究的團(tuán)隊(duì)發(fā)布了一個(gè)在線交互模型,鏈接如下:http://gallantlab.org/huth2016/。

「在未來(lái)的通用人工智能(AGI)系統(tǒng)中,嵌入技術(shù)會(huì)成為語(yǔ)言翻譯的模型嗎?」

它們確實(shí)感覺(jué)很相似,因?yàn)樗鼈儽举|(zhì)上都是降維,或壓縮信息。我們可以想象大腦也在做類(lèi)似的事情。我們的語(yǔ)言中個(gè)存在很多同義詞,我們經(jīng)常會(huì)說(shuō)「...和...意思相同」。通常情況下,當(dāng)同義詞之間的細(xì)微差別非常小時(shí),我們必須將其弄清楚,探究這些詞在這個(gè)語(yǔ)境下究竟代表什么意思。

「什么是詞與詞之間結(jié)構(gòu)的理論?」

我們先不談這個(gè)!

「嵌入技術(shù)是如何實(shí)現(xiàn)的?」

它們基本上是降維的一種形式。經(jīng)過(guò)對(duì)模型的訓(xùn)練,隱層會(huì)被提取出來(lái),它們的「潛在空間」會(huì)被用于另一個(gè)架構(gòu)中。近年來(lái),研究者們提出了許多不同的嵌入方法,所以在這里我們僅僅以?xún)蓚€(gè)嵌入方法為例。(1)FastText,這是一個(gè)簡(jiǎn)單而強(qiáng)大的對(duì)比基線,(2)ELMO,這是 2018年最先進(jìn)的方法。

FastText 與 CBOW 算法類(lèi)似。

「什么是 CBOW?」

CBOW 是 skip-gram 方法的「鏡像」。

「那什么是 skip-gram 呢?」

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處? 

在 skip-gram 方法中,句子中的每一個(gè)單詞都會(huì)被用來(lái)預(yù)測(cè)鄰近的單詞。

「Gram」指的是我們要處理的單詞/單詞串/字符串有多長(zhǎng)。

我們還可以加大「窗口大小」來(lái)預(yù)測(cè)距離當(dāng)前單詞更遠(yuǎn)的單詞。我們?cè)谶@里使用大小為 1 的窗口。

「但是語(yǔ)言并不僅僅是以概率形式存在。它作為人類(lèi)的意圖和可以改變的事實(shí)而存在。一個(gè)大的概率模型對(duì)我們來(lái)說(shuō)意味著什么?」

正如我們?cè)谏厦婵吹降模鼮槲覀兲峁┝嗽~語(yǔ)之間的「關(guān)系」,或者說(shuō)將那些在某種程度上相似的詞語(yǔ)以「相近」的形式表征了出來(lái)。

使用 skip-gram 或 cbow 方法的 word2vec(https://code.google.com/archive/p/word2vec/  )模型能夠執(zhí)行一些有一定規(guī)律可循的向量操作。例如(以下均為嵌入向量的計(jì)算):「國(guó)王」 - 「男人」+ 「女人」得到的向量與代表「女王」的向量非常相近。

我們可以通過(guò)以下鏈接看到一個(gè)使用 word2vec 的在線演示樣例:http://bionlp-www.utu.fi/wv_demo/  。

這個(gè)單詞類(lèi)比工具很有趣。你可以給它三個(gè)單詞,A, B, C,它會(huì)嘗試找到第四個(gè)單詞 D。相信你還記得 9 年級(jí)英語(yǔ)課上最煩人的練習(xí)「A 之于 B,就像 C 之于 D」(A is to B as C is to D)。

當(dāng)我們向這個(gè)模型輸入「女王」、「女人」和「公主」,模型會(huì)輸出「女孩」。然而,當(dāng)我們輸入「國(guó)王」、「男人」和「王子」則并沒(méi)有得到同樣令人滿(mǎn)意的結(jié)果,模型給出的答案是「女人和男孩」。

「這似乎是一個(gè)良好的開(kāi)端。我們是否能繼續(xù)進(jìn)行研究,并且通過(guò)更改單詞來(lái)得到特定的關(guān)系呢?」

就像其他稠密的神經(jīng)網(wǎng)絡(luò)一樣,這只是一種近似。我們不能手動(dòng)改變單詞來(lái)得到特定的關(guān)系,我們需要一個(gè)更好的訓(xùn)練方法/模型/數(shù)據(jù)來(lái)使用這個(gè)概念得到更好的結(jié)果

「嵌入技術(shù)似乎就是對(duì)于通用詞語(yǔ)模式的一種粗略的近似。它們有什么作用呢?」

FastText 已經(jīng)能夠在一些情感分析數(shù)據(jù)集上獲得至少 90% 的準(zhǔn)確率。

「上述方法的鏡像是什么?」

對(duì)于詞袋來(lái)說(shuō),與其讓一個(gè)單詞映射到周?chē)膯卧~,不如讓它周?chē)膯卧~映射到那個(gè)單詞。更多細(xì)節(jié)請(qǐng)參閱:https://iksinc.online/tag/continuous-bag-of-words-cbow  。這項(xiàng)工作不是用循環(huán)神經(jīng)網(wǎng)絡(luò)完成的,所以單詞的順序并不重要。

「FastText 的工作機(jī)制有何與眾不同之處?」

FastText 利用上面得到的這些嵌入創(chuàng)建了一個(gè)「平均嵌入」的隱層。

 

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

FastText 技術(shù)還使用了層次 softmax 技術(shù),在哈弗曼編碼的基礎(chǔ)上,對(duì)標(biāo)簽進(jìn)行編碼,極大地縮小了模型預(yù)測(cè)目標(biāo)的數(shù)量,從而在數(shù)據(jù)中存在很多類(lèi)時(shí)提升了計(jì)算效率。

「ELMo(Embedding from Language Models,語(yǔ)言模型生成的嵌入)的工作機(jī)制有何與眾不同之處?」

ELMo 試圖使用某個(gè)單詞的上下文信息。Skip-gram 和 CBOW 使用的是一個(gè)大小為 2 的窗口,所以我們很難將它稱(chēng)之為「上下文」,下面的例子可以很好地說(shuō)明這一點(diǎn):

  • 我們?cè)诰捯蛑菡业降?strong>商店 (store) 非常棒。

  • 在緬因州,我們發(fā)現(xiàn)了被動(dòng)物刨過(guò)的食物貯藏 (store) 。

這個(gè)例子看起來(lái)很能說(shuō)明問(wèn)題,由于 FastText在統(tǒng)計(jì)上是基于單詞之間的距離工作的,它無(wú)法捕獲單詞在句子中的用法。

「E 代表嵌入,ELMo 中的語(yǔ)言模型部分是什么呢?」

在這個(gè)「上下文」中,語(yǔ)言模型是一個(gè) LSTM 模型,我們用它來(lái)預(yù)測(cè)句子中的下一個(gè)單詞是什么。這不是什么新鮮事,自從 Karpathy 發(fā)表關(guān)于 RNN 的博客文章(http://karpathy.github.io/2015/05/21/rnn-effectiveness/  )以來(lái),已經(jīng)過(guò)去三年了,這是第一篇?jiǎng)?chuàng)建了文本生成模型的文章。

研究人員不久前發(fā)現(xiàn),將信息輸入給一個(gè)前后向傳播的 LSTM 可以改進(jìn)各種語(yǔ)音/聲音/文本任務(wù)。ELMo 也是這么做的。

「所以我們?cè)谶@里將嵌入用到了 LSTM 中?」

在 ELMo 方法中,嵌入是LSTM隱層的每個(gè)輸出的權(quán)重。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處? 

保存下來(lái)的隱層狀態(tài)被添加到了一個(gè)大的長(zhǎng)向量中。我們還可以從單詞本身獲得一個(gè)額外的嵌入。這個(gè)詞本身可以是一個(gè)單詞(token)嵌入,也可以是在字符串上進(jìn)行卷積運(yùn)算得到的結(jié)果。每個(gè)單詞總共有 2L(層數(shù))+ 1 個(gè)嵌入。

但是 Elmo 的工作還沒(méi)有完成。我們?nèi)匀恍枰獙?duì)這些嵌入作進(jìn)一步的研究工作,模型的其余部分將決定哪些嵌入是有用的。Elmo 實(shí)際上在很多任務(wù)上都取得了很好的效果。要實(shí)現(xiàn)這樣的效果在某種程度上需要針對(duì)于特定任務(wù)的權(quán)重。Elmo很好地封裝了上面的向量

http://mlexplained.com/2018/06/15/paper-dissected-deep-contextualized-word-representations-explained/  )。

「現(xiàn)在我們對(duì)這些嵌入相關(guān)的技術(shù)已經(jīng)有了一個(gè)初步的模糊概念,Unet 模型使用了那些技術(shù)呢?」

它們使用了Glove(用于單詞表示的全局向量)、ELMo(語(yǔ)言模型生成的嵌入)、POS(詞性標(biāo)注)、NER(命名實(shí)體識(shí)別)以及特征嵌入等技術(shù)。這里使用到的嵌入技術(shù)很多。

「什么是特征嵌入?」

在原論文中,作者們對(duì)特征嵌入的定義是:「精確匹配、小寫(xiě)匹配、論點(diǎn)匹配和TF-IDF特征?!筎F-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf  )是一種測(cè)量一個(gè)單詞在語(yǔ)料庫(kù)中出現(xiàn)多少次的方法。因此,他們創(chuàng)造了對(duì)那些人們可能很容易注意到,但是如果不對(duì)數(shù)據(jù)集進(jìn)行大量的排列,網(wǎng)絡(luò)就可能無(wú)法注意到的語(yǔ)言特征的嵌入。例如大寫(xiě)字母和小寫(xiě)字母。

「這會(huì)生成大量的嵌入,這些模型會(huì)如何處理這些嵌入呢?」

在這里,這些模型會(huì)得到所有這些巨大的嵌入的堆棧,它們將為文章中的每一個(gè)單詞計(jì)算一次這樣的嵌入,再為問(wèn)題中的單詞也計(jì)算一次。它們最后會(huì)通過(guò)另一個(gè)隨機(jī)向量u的簡(jiǎn)單連接將這些嵌入結(jié)合在一起。從而得到:V=[Q,u,P]

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處? 

他們希望這個(gè)被稱(chēng)為「通用節(jié)點(diǎn)」的 u 向量將包含文章和問(wèn)題中的抽象信息。

「向量 u 很重要嗎?」

原文作者展示的第一個(gè)模型簡(jiǎn)化測(cè)試的結(jié)果就是「刪除向量 u 之后, F1 值下降了 2.6%」。

「向量 u 是如何同時(shí)從問(wèn)題和文章中抽取出信息的?」

為了模糊化問(wèn)題、向量 u、文章之間的信息,他們將向量 V 作為一系列雙向 LSTM 的輸入。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?


當(dāng)然,他們更喜歡將這個(gè)過(guò)程稱(chēng)為「融合相關(guān)的信息」。

「為什么還要在 H 向量中保留 H^L,H^H 呢?H^F 的信息不夠嗎?」

這篇論文的主題,以及最近的一些成功案例的做法都是將前面的層的隱藏狀態(tài)傳遞給所有更深的后面的層。

「為什么將隱藏狀態(tài)傳遞給后面更深的層是有效的?」

這個(gè)問(wèn)題還有待探索!

「我們已經(jīng)做好了充分的準(zhǔn)備去做一些事情,U-net 模型的核心是什么?」

U-Net 模型將多層注意力機(jī)制(https://arxiv.org/pdf/1803.02353  )和答案指針(https://arxiv.org/pdf/1608.07905.pdf  )技術(shù)融合在了一起,這兩種方法都能得到很好的效果。

「注意力機(jī)制在區(qū)分向量中的問(wèn)題和答案部分的過(guò)程會(huì)不會(huì)很困難?」

確實(shí)如此!為了解決這個(gè)問(wèn)題,作者首先將隱層分割成了單獨(dú)的的段落/問(wèn)題塊,分別對(duì)應(yīng)文章或問(wèn)題中的每一個(gè)單詞p1、p2。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處? 

「答案指針究竟做了些什么?」

答案指針是 PointerNet(https://arxiv.org/abs/1506.03134) 的具體應(yīng)用,它允許根據(jù)輸入序列而不是詞匯表預(yù)測(cè)單詞。它通過(guò)注意力機(jī)制來(lái)做到這一點(diǎn)。

在 U-net 中,答案指針被用于檢測(cè)文章中的「答案邊界」。如果這個(gè)問(wèn)題是可以回答的,那要找到答案就很簡(jiǎn)單了。

「如果答案在原文中找不到怎么辦呢?」

對(duì)于無(wú)法回答的問(wèn)題,u-net 在原文表示之前將 u 向量設(shè)置為真實(shí)數(shù)據(jù)邊界。對(duì)于無(wú)法回答的問(wèn)題,「答案邊界」應(yīng)該位于文章本身之外。由于想要使用一些 SQuAD 2.0 提供的信號(hào)信息,他們?cè)谶@里使用了一個(gè)不同的損失函數(shù)。從人類(lèi)生成的「合理的答案文本」中可以獲得更多信息。模型簡(jiǎn)化實(shí)驗(yàn)表明,將這種合理的文本損失考慮在內(nèi)時(shí)可以將 F1 score提高1%。

答案指針本身不會(huì)對(duì)答案是否存在做出最后的判斷。

「最終如何確定一個(gè)問(wèn)題的可回答性?」

這就需要用到答案「驗(yàn)證器」模塊。它將前面的項(xiàng)(例如多層注意力機(jī)制的輸出)和答案指針轉(zhuǎn)換為固定維度的向量。然后對(duì)它們進(jìn)行合并,并將合并后的結(jié)果傳遞給一個(gè)帶交叉熵?fù)p失的「線性+sigmoid」層,最終決定這個(gè)問(wèn)題是否可回答。

「我們還需要注意哪些細(xì)節(jié)呢?」

我們已經(jīng)了解了這種方法的本質(zhì),看到了它的模塊設(shè)計(jì)思路很棒。它直接保留所有的信息,并在模型的下游重用這些信息以獲得更高的性能,這種能力似乎給我們上了重要的一課?,F(xiàn)在讓我們回顧一下這個(gè)模型并看看其他的推理方法。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

V-net 模型有四個(gè)主要的模塊

  • 嵌入

  • 融合

  • 注意力機(jī)制

  • 預(yù)測(cè)邊界

對(duì)我來(lái)說(shuō),這篇論文最有趣的結(jié)論是,「我們可以把許多不同的概念組合在一起,得到比使用單個(gè)部分更好的結(jié)果」。

「還有其他在模型的下游層中使用隱藏狀態(tài)的例子嗎?」

DenseNet(https://arxiv.org/abs/1608.06993)就是一個(gè)很好地例子。它將前面的卷積層的隱藏狀態(tài)傳遞下去。實(shí)際上,U-net 論文的作者甚至在參考文獻(xiàn)中也提到了 DenseNet。

「我們還應(yīng)該研究研究其它性能良好的模型架構(gòu)嗎?」

與其研究另外的性能良好的模型架構(gòu),我們不如看一看其他的創(chuàng)建推理系統(tǒng)的方法。嵌入技術(shù)、LSTM 以及注意力機(jī)制都是很實(shí)用的工具。讓我們來(lái)看看一些范式轉(zhuǎn)換的方法,以獲得更多不同的創(chuàng)建推理系統(tǒng)視角。比如 Sigma, Soar 或 SPAUN。

目前我們還無(wú)法回答的問(wèn)題有:

  • 「什么是詞語(yǔ)之間的結(jié)構(gòu)理論?」

  • 「為什么將隱藏狀態(tài)傳遞到更下游的層會(huì)有幫助?」

via Better Learning For Life,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)