0
本文作者: 嘉嘉 | 2022-03-24 16:26 | 專題:ICLR 2019 |
導(dǎo)讀:Transformer在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長(zhǎng)距離的依賴關(guān)系,但由于Softmax算子關(guān)于序列長(zhǎng)度的二次空間和時(shí)間復(fù)雜性,使其很難擴(kuò)展。針對(duì)這點(diǎn),研究者提出利用核方法以及稀疏注意力機(jī)制的方法來(lái)近似Softmax算子,從而降低時(shí)間空間復(fù)雜度。但是,由于誤差的存在,效果往往不盡如人意。
我們(商湯多模態(tài)研究組)認(rèn)為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點(diǎn)是,與其近似Softmax,不如設(shè)計(jì)一種方式代替Softmax,并且同時(shí)降低時(shí)間空間復(fù)雜度。因此,本文提出了名為cosFormer的方法,在時(shí)間空間復(fù)雜度關(guān)于序列長(zhǎng)度為線性復(fù)雜度的同時(shí),其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結(jié)果。我們的設(shè)計(jì)核心理念基于兩點(diǎn),首先是注意力矩陣的非負(fù)性,其次是對(duì)局部注意力的放大(非極大值抑制)。
本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。
論文地址:https://arxiv.org/abs/2202.08791
部分開(kāi)源代碼:https://github.com/OpenNLPLab/cosFormer
圖片表示各種transformer在LRA benchmark上的表現(xiàn),其中y軸表示性能,x軸表示速度,圓圈大小表示內(nèi)存,我們提出的cosFormer取得了明顯的優(yōu)勢(shì)。
我們經(jīng)過(guò)分析以及實(shí)驗(yàn),歸納出Softmax Attention中比較重要的性質(zhì),這兩個(gè)性質(zhì)可以指導(dǎo)我們的模型設(shè)計(jì):
1. 注意力矩陣的非負(fù)性
2. 局部注意力的放大(非極大值抑制)
所以我們的方法需要在加了reweighting操作后也更加集中在對(duì)角線附近。注意并非所有的有類(lèi)似權(quán)重的函數(shù)均適用,這個(gè)reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個(gè)矩陣的乘法的形式。
至此,就可以引入我們的cosFormer了。
我們的方法基于線性Attention,首先給出符號(hào)定義:
我們?cè)趩蜗蚰P?,雙向模型以及LRA benchmark上測(cè)試了我們的方法,均取得了非常不錯(cuò)的效果。
單向語(yǔ)言模型,指標(biāo)表示困惑度(越低越好):
論文地址:https://arxiv.org/abs/2202.08791
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章