丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給劉鵬
發(fā)送

0

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

本文作者: 劉鵬 2018-07-16 09:51
導語:深度學習 (DL)+ 強化學習 (RL) = 人工智能 (AI)

雷鋒網(wǎng) AI 研習社按:當 AlphaGO 橫掃之后,越來越多的學者意識到強化學習在人工智能領域所扮演的重要角色。同時隨著深度學習的發(fā)展,應用深度學習,很多自然語言的傳統(tǒng)難題得到突破。另外,引用 David Silver 的一句話:深度學習 (DL)+ 強化學習 (RL) = 人工智能 (AI)。

近日,在雷鋒網(wǎng) AI 研習社公開課上,廣東工業(yè)大學葉志豪介紹了深度學習和強化學習兩大利器如何結(jié)合并應用于 NLP 中的文本生成和對話任務。公開課回放視頻網(wǎng)址:http://www.mooc.ai/course/503/reviews/#nav-tabs

葉志豪,就讀于廣東工業(yè)大學,主要研究方向為深度學習,強化學習,自然語言處理,對話及問答系統(tǒng)。

分享主題:介紹強化學習及其在 NLP 上的應用

分享提綱:

1、強化學習與深度強化學習介紹。

2、強化學習在文本生成的應用代表。

3、強化學習在對話任務的應用代表。

雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:

我今天要講的是強化學習及其在 NLP 上的應用,為什么要講強化學習和在 NLP 上的應用?因為我覺得強化學習在 NLP 上有很大的的應用前景。

我今天主要講強化學習和其在 NLP 上的簡單應用,因為強化學習的門類很多,想要深入了解的話,內(nèi)容太多,它在 NLP 上的應用也很多,不同方向有不一樣的應用。今天主要講解它在文本生成和對話系統(tǒng)上的應用,因為我對這個方面了解比較深入,最近也在做這個課題,如果你們有興趣也可以關注我的知乎專欄:AI 遇見機器學習。

在講解中,我會介紹幾篇代表性的論文,我的工作會放在最后跟你們討論,我們現(xiàn)在開始講強化學習。

我們先看一下強化學習是什么,強化學習有兩個主要組成部分,一個是 agent,另一個是環(huán)境。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

舉個例子,在下圍棋的時候,alpha Go 就可以看成是一個 agent,其他的 agent 主要是給出一個動作、一個環(huán)境,然后它會記憶環(huán)境給它的一個觀測,給出自己的一個動作,在給出自己的動作之后,一般會有環(huán)境回饋一個獎勵機制給它,然后這個獎勵可以是正的,也可以是負的,負的就變成了懲罰。

對于環(huán)境,它首先是接收了一個來自 agent 的一個動作,然后接著會出 agent 的一個觀測,類似剛才講解過的流程,它在接收到一個 agent 之后也會反饋一個信號給它,這就是一個大體流程,我們研究強化學習,主要研究 agent 的一個決策。

比如,alpha Go 是一個 agent,環(huán)境可以看成是圍棋的規(guī)則,即下棋的一個形式。強化學習,影響未來對 agent 的一個反饋,它的動作會影響它的反饋,如果是比較不好的動作,環(huán)境會給它一個負的懲罰,agent 的每一個動作都會影響它的未來的狀態(tài),狀態(tài)是有些人懂,有些人不懂,關于未來的狀態(tài)我們之后再做解釋。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

剛才也提到,給出一個動作之后,環(huán)境會給出一個獎勵的信號(可能正也可能負),我們的目標,「agent 什么時候才是一個成功的(有利于我們的)agent」,如 alpha Go,什么時候它才能在圍棋上戰(zhàn)勝人類,這時是看它的 reward,如果在 reward 是好的情況下,什么是贏,什么是輸,我們肯定更希望 agent 每局都贏,每局都是一個正的獎勵信號。

接下來,講一下強化學習和監(jiān)督學習的區(qū)別,主要的區(qū)別可以歸納為兩點。和監(jiān)督學習比較,強化學習的信號是一個獎勵信號,有樣本、有標簽,然后就是輸入的不同。因為我們常見的,像我們的輸入模型,它們都是獨立分布的,但是對強化學習來說,一般它是一個序列,也就是說它的每一個動作的輸出和它的輸入是有關系的,它兩次的輸入有可能是相關聯(lián)的,很大程度上一般都是相關聯(lián)的,這兩點是強化學習和監(jiān)督學習的一個區(qū)別。

另外的一個區(qū)別,是強化學習的一個應用,觀察上圖,可以看到強化學習的很多應用,比如在計算機科學、工程學、數(shù)學、經(jīng)濟學方面的應用,但這是非常多的應用,而每個人感興趣的地方也不一樣,大家可以選擇自己感興趣的自行了解。

簡單介紹一下強化學習的一些概念,首先是狀態(tài),環(huán)境給一個觀測給 agent,然后 agent 給一個動作給環(huán)境,環(huán)境再反饋一個獎勵信號,全部組成起來。換句話說,不同的觀測,agent 會給出一個不同的動作,不同的動作,環(huán)境也會給出一個不同的獎勵,這一系列的一個經(jīng)歷或軌跡,就變成了一個狀態(tài)。

舉個例子,我們在下圍棋的時候,圍棋中有 19*19 的格子,每一個格子對應不同的動作,但是每一個格子對應不同的動作之后,會有一個獎勵或者有一個懲罰,這一系列的一個軌跡就會形成一個狀態(tài),agent 和環(huán)境的一個表示,也存在環(huán)境的配置可能不夠獎勵機制的限定之類的情況。

策略:分為確定性策略和隨機策略。

確定性策略,從字面意思上理解比較清楚,確定性策略就是指在某一個狀態(tài)下,它的動作應該是確定的,比如我們剛才舉例的圍棋,某一個格子上要不要落子,這個策略是確定的。

隨機策略,隨機策略就是在某一個格子上,「下不下」是由概率分布,比如「下」的概率是 80%,「不下」的概率是 20%。當然,在現(xiàn)實應用中會復雜很多。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

Value function:分為兩種,一個是 V-value function,一個是 Q-value function,但是這里因為時間有限,我們就只介紹 Q-value function,它表示的是未來的總的 reward 的一個估計,或者是一個期望,它表示當前策略的一個狀況,也就是當前策略的一個好壞程度,它的定義是上圖(下)的一行公式(截自教材),公式中都是順時的一個獎勵,表示一個隨著 t 的增加然后遞減的過程,因為它是(0,1)之間的,表示某個策略的好壞程度和總的一個價值,這就是說這個策略的價值是這樣的,這里的 value function 可以定義為 Bellman 等式,該公式的推導過程這里不作講解,我們可以看直接結(jié)果,這個等式可以求解下一個函數(shù),利于求解它的策略。對于一個應用,它肯定是有一個最優(yōu)的價值函數(shù),比如,圍棋方面可能會有一個最優(yōu)的價值函數(shù),一般來說,最優(yōu)的價值函數(shù)對應的都是最優(yōu)策略。

比如,下圍棋的時候,給出一個狀態(tài)函數(shù),其實我們最重要的是得出那個策略,這個策略就決定了我們下圍棋的最后結(jié)果,我們想求它的最優(yōu)策略的話,一般是求它的最優(yōu)函數(shù)來確定。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

根據(jù)這些不同的方法和不同的角度,對強化學習的分類,強化學習的分類方式有很多種,這里給出了 value-based RL(基于價值函數(shù)),policy-based RL(基于策略的函數(shù)),model-based RL(基于模型的函數(shù))的分類,可以按著順序來了解。

value-based RL(基于價值函數(shù)的強化學習)

基于價值函數(shù)的強化學習,它先通過對現(xiàn)狀進行一個價值函數(shù)的估計,進而去提升策略,估計這個策略,再重復循環(huán),再估計當前策略下的函數(shù),再用當前價值函數(shù)來提升它的策略,兩步,第一步估計價值函數(shù),第二步是提升它的策略,這兩步一直循環(huán)。

基于值的函數(shù)分為在線學習和離線學習兩種方式,在線學習的代表學習方法是 Sarsa,離線學習代表的是 Q-learning。

policy-based RL(基于策略的強化學習)

基于策略的強化學習,一開始先估計它的值函數(shù),經(jīng)過價值函數(shù)進一步得到它的最優(yōu)策略,但是基于策略的強化學習直接估計它的最優(yōu)策略。但是我們估計這個最優(yōu)策略的時候,同時也必須由那個自然數(shù)來進行領導,一個擬合或者使它得到了那個獎勵最大化。

基于策略的強化學習,代表性的有策略梯度和 REINFORE 算法。另外,圖(右上)可以看出它們是有交叉的,這些交叉可以是 AC 算法或比較高級的一些算法。

model-based RL(基于模型的強化學習)

強化學習分為兩部分,一個是環(huán)境,一個是 agent,但很多時候,環(huán)境的觀測是不完整的,或者是沒有那個環(huán)境的,這時,我們可能需要提前去模擬出這個環(huán)境,我記得有幅圖比較形象,有環(huán)境的MDP是真實地球,模擬環(huán)境可以看出整個地球的地圖,也就是地球的模擬。我們進一步利用這個模擬出來的地球來求它的價值函數(shù)和最終策略,我們比較熟悉的搜索之類的就是這種代表性的算法。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

下面來介紹什么是深度強化學習,以我的理解,深度強化學習指的是擬合它的策略、價值函數(shù)、模型。深度學習一般來說就是深度神經(jīng)網(wǎng)絡(其他深度樹之類的不在考慮范圍內(nèi)),它還有個特點:利用梯度下降或者其他擬合改進之后的一個算法來擬合?,F(xiàn)在,深度強化學習也越來越強大,不斷得到發(fā)展。

deep learning 的話其實很早就有了,它通過先估計值,通過這個價值函數(shù),再進行一個策略,或者最大化價值函數(shù)得到那個策略,很早之前就有一個擬合,是用非線性擬合的方式,去擬合這個價值函數(shù),輸入一個函數(shù),就是 Q-value function。

此前的那些用擬合和非擬合工具,存在兩個主要的問題,這兩個主要的問題,會導致用線性、非線性或者那些擬合網(wǎng)絡,有時會導致偏差,繼而會導致樣本之間是有很強的相關聯(lián)性。有一個假設,它是獨立分布的,如果樣本有一個很大的相關聯(lián)度的話,會產(chǎn)生一個偏差。另外一個就是它的偏差是不穩(wěn)定的(可以這么理解)。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

deep Q-learning 根據(jù)以下三點進行改進,使它的能力或者 DQN 的那些應用也非常成功。

一、deep Q-learning 使用了深度卷積神經(jīng)網(wǎng)絡,深度神經(jīng)卷積網(wǎng)絡在 imageNet 上有很多成功的應用,卷積神經(jīng)網(wǎng)絡也有非常強的擬合能力,輸入和輸出之間非常多的線形操作,這是我們想要的。

二、為了解決剛才提及的兩個主要問題,deep Q-learning 采用了隨機采樣,同時,這兩個主要問題是離線學習的做法,通過之前的樣本或者別人的樣本來進行訓練,這樣會隨機對樣本進行打亂,這里其實做了一步,將樣本的相關性打亂,變得更加隨機、更加獨立分布。還有一種輸入法是利用別人已經(jīng)訓練好的樣本,那些更好的軌跡或者狀態(tài)之類的進行訓練,類似于站在別人的肩膀上看世界,這樣更加的好,也會更加的適合卷積神經(jīng)網(wǎng)絡去訓練

三、deep Q-learning 用 Q-target,Q-target 是之前的一個參數(shù),它是固定的,它給出的值,可以看 loss function 這里,公式的具體講解大家可以回放公開課視頻至第 24 分鐘進行查看。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

下面來講解基于訓練的,我記得 alpha Go 那里也是 process 過的,它跟前面講解的方式不一樣,它是直接輸入一個狀態(tài),然后輸出動作或者策略,我們要擬合的是由動作到神經(jīng)之間的神經(jīng)網(wǎng)絡,但怎么擬合?

一般來說,我們先對這個應用進行采樣,先下一萬盤圍棋,記憶每一盤的軌跡,并且標記下來,利用大量的樣本進行擬合,如何設計獎勵機制是很重要的一點,圍棋可以利用它的規(guī)則進行設計,我們利用這種機制讓更好的軌跡更有可能發(fā)生。換句話說,我們利用那些獎勵機制,發(fā)展成我們想要的動作和策略,如果設計得很好,就能很好擬合從狀態(tài)到設計的擬合。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

關于這樣做的好處和壞處,最突出的好處是,我們之前提到的 Q-learning 和基于值的強化學習,它們先通過估計價值函數(shù),然后這個價值函數(shù)再去進一步得到它的策略。但是,我們怎么實現(xiàn)從價值函數(shù)到策略的轉(zhuǎn)化,還是通過最大化那個價值函數(shù),在每一個動作下最大化那個價值函數(shù),得到那個動作或者策略。

但是如果你的動作很多,或者是一個連續(xù)動作空間的話,很有可能對 GPU 消耗過大,電腦的計算能力無法承受,就會變得很低效。如果是高維或者連續(xù)型的一個空間的話,用 growth network 就可以很好解決,因為從狀態(tài)到動作,直接輸出的是一個動作,而不是一個價值,從價值再去映射到它的策略,映射那一部分已經(jīng)被我們?nèi)サ袅?,如此一來,我們就可以減少大量的計算。另外,它可以學習到隨機性的一個策略。

關于壞處,最重要的是一個高分差的問題,可以使用其它計算機類的方法進行解決。

現(xiàn)在講一下確定性與隨機策略的區(qū)別,前面給出的是它們的好處。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

如果是隨機性策略的話,會得到更多探索性。當是一個確定性的話,它會更加有效,但它會有一些問題,比如圖(右)的例子,設定是需要拿到中間的錢,如果用確定性的 policies 的話(用 Q-learning 的算法去學習),最終學習到的是中間的狀態(tài)。假設是每個格子只能了解兩邊的情況,灰色格子兩邊都是白色格子,agent 只能看到兩邊格子都是白色的。右邊的灰色格子同理,只能看到兩邊是白色的,不能判斷哪邊更好哪邊更壞。

如果用 Q-learning 去訓練這個模型,最終得到的一個策略就是中間紅色箭頭標注的那樣(上圖),可能發(fā)生的情況是:「從白色到灰色,灰色到白色一直循環(huán)」,永遠都到不了最終要到的地方,在確定性策略下,永遠都找不到可能性的存在。

另外一種情況,采用隨機性策略,兩個灰格子不知道左右兩邊,它會隨機拋一個硬幣,有可能跑到左邊,這樣會得到一個負的獎勵,也有可能跑到右邊,得到一個正的獎勵,得到了我們最終想要的結(jié)果。它不會像確定性策略那樣一直循環(huán)下去,這就是隨機性策略的一個好處... 此處詳細講解可回放視頻至第 31 分鐘查看。

強化學習為什么能應用在自然語言處理上?

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

首先,現(xiàn)在最主要的一個解決方式是,強化學習對一個離散空間上的決策是有天然的優(yōu)勢。

一、強化學習在策略決策或文本生成上具有天然優(yōu)勢,因為我們在擬合 Q-wise learning 的時候,我們發(fā)現(xiàn)(除強化學習之外的)其他方式都不能很好的達到我們理想的效果。

二、在任務型對話系統(tǒng)中,給定一個對話之后,會有一個決策過程,也就是指,這個系統(tǒng)下一步是要問問題還是要回答問題,這都是策略。我們可以把它們變成一個策略,再進行一個策略決策,再進行一個強化學習,去擬合它和訓練它。

三、在很多隱狀態(tài)的時候,我們有可能應用到強化學習,這時,我們可以利用自己設立的權利機制來對隱狀態(tài)進行一個訓練或者擬合。

我認為,第一點最重要,就是強化學習在天然的離散空間上可以 work 的一個原因,因為目前的自然語言處理大多都是一個離散空間的自然語言處理、生成或者是序列決策,這時,我們很天然地可以利用到強化學習去擬合和運作。另外,它的決策函數(shù)是可以自己制定的一個過程,但這個制定復雜,不同的應用也有不同的方式。

下面,我會講解四篇有代表性的論文。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

注:此部分的詳細解讀,大家可回放公開課視頻至第 38 分鐘查看

第一篇是 sequence generative adversarial nets with policy gradient,這是首篇用 GAN 在 NLP 上的應用,此前 GAN 不能應用文本生成和自然語言處理,這時,強化學習就起到了決定性的作用,這是至關重要的一部分,所以今天我們拿出來講一下,而且 sequence 也比較出名和具有代表性,是強化學習在文本生成的一個應用。

首先,為什么之前的 GAN 不能應用于自然語言處理和文本生成?

因為之前在判別器給出生成器一些梯度信號的時候,在圖像連續(xù)型是可以 work 的,一旦變成了一個文本生成離散型的時候,它是不能夠...... 此部分的詳細講解大家可回放公開課視頻至第 36 分鐘查看。

圖像識別,判別器給生成器一個梯度的信號,這時,判別器給生成器 0.1 的改進,生成器對圖像像素進化+0.1,它的像素會變化,暗度會有一定的改變,這時,象征它的圖像會有一定的變化。

換成文本后,我們用 threshold 和 word-embedding 給一個表示的話,就加 0.1,比如,「我」這個詞加了 0.1,它可能在詞庫里找不到代表這個詞的,加 0.1 的這個詞可能并不存在。另外,我們可能會利用一種強制把它變成最接近的那個詞,比如,「我」+0.1 更靠近「我們」這個詞,就變成「我們」,如此一來,可能會近一步,偏差一直下去的話,生成的效果可能不好,這就是原始的一個問題,這時,我們可以利用強化學習解決它。

sequence generative adversarial nets 主要也是這方面的一個應用,它的主要 contribution 也是第一次利用強化學習、利用 GAN 去生成結(jié)構圖。sequence generative adversarial nets 使用效率比較高的 CNN,效果比較好。生成器用的是 LSTM,LSTM 之后,用策略梯度去優(yōu)化,這里存在一個問題:

LSTM 生成一個單詞,因為 CNN 這時判別不出該單詞真或假的時候,它的句子很有可能不完整。LSTM 生成一個完整的句子,判別器得到這個句子之后,我們就可以把判別器當成一個信號,返回給生成器... 繼強化學習之后,利用擬合的、或訓練的指函數(shù),判別器給定的一個信號,生成器去擬合,它就是利用這樣的方式... 生成器生成的文本更好,效果還可以,大家可以參考它的資料復現(xiàn)一下。在對話方面的應用,后來做了一些改進,一開始說要生成完整的句子,用蒙特卡洛樹去 sample 它就能得到一個句子,李博士也說,可以用不完整的句子讓它判別,之后得到一個獎勵信號去訓練,具體的內(nèi)容大家可以去看一下論文。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

這篇 2016 年發(fā)表的論文,是關于文本算法對序列生成的一種應用,老早之前,我們就認為 reinforce 算法和 AC 算法屬于策略的強化學習,它是基于值函數(shù)的一種一個組合。

這篇論文主要是利用 actor critic 應用在序列預測上的一個應用,它主要解決 exposure bias 問題,exposure bias 問題可以簡單解釋成,我們在生成一句話的時候,在訓練的時候,一開始的那個 label,LSTM 輸入都是真實的輸入,那個句子是真實的句子,但是等到預測的時候,輸入是上一步得到的輸出作為下一步的輸入進行輸入,這樣得到了一個結(jié)果,訓練和預測不同的輸入,這樣導致的一個偏差,隨著序列的長度的增加,它的偏差也會越來越大,這里就會產(chǎn)生一個 exposure bias 問題,然后他們這篇論文也是解決那一個問題而做的,related work 有很多,大家可以自己去考證一下。

模型,actor 和 critic,一個是 decoder,一個是 encoder 的框架來形成的。actor 可以看成是輸入原來的一個句子。例如,actor 的應用是應用到一個翻譯上的,原來要翻譯的一個句子輸入成 encoder 的一個輸入,decoder 輸出的是翻譯后的一個序列,這個序列可以輸入給 critic 進行值函數(shù)的一個判斷,這個值函數(shù)的判斷輸入在 encoder 的里面的時候是真實的.. 詳細解讀大家可回放公開課視頻至第 47 分鐘查看。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

這篇論文的內(nèi)容是,用強化學習去解決對話生成的一個問題。對話生成的主要問題是,會生成一個很一般的一個回答,比如「see you later」這種很沒有營養(yǎng)的一種回答。另外,它會形成一個循環(huán),就是「see you later」「see you later」「see you later」這種,這篇論文的作者是李博士,他在對話生成方面發(fā)表過不少好的論文,大家也可以去看一下。

利用一個強化學習把原來的損失函數(shù)進行一個改變... 去擬合的一個 seq2seq,我們通常利用其它的自然區(qū)域去擬合 seq2seq... 我們可以自己設計 reward,利用這個 reward 讓系統(tǒng)生成我們自己想要、使系統(tǒng)更加靈活的一種方式。如果我們想在強化學習有所應用的話,這篇論文有很大的參考價值。

基于策略的強化學習有一點很重要,利用值函數(shù)進行引導,讓我們得到更好的想要的策略。這里給出了 3 種 reward,之后,再將這 3 種 reward 進行加權平均,得到了一個最終的 reward,每一個 reward 都有它自己的一個意義。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

最后一篇的關于任務型對話方面的內(nèi)容,強化學習最主要作用是運用強化學習去訓練它的決策策略,根據(jù)剛才提到的例子,客服系統(tǒng)需要預測問問題,這就是一個決策,需要利用強化學習去做這個決策,Q-learning 也可以,但是效果比較差,還有就是 Q-learning 需要大量的樣本,這時,用強化學習就可以減少大部分的樣本,在很多應用上比較方便。

這篇論文,是把它應用到了一個個性化的系統(tǒng),它和普通的對話系統(tǒng)的一個較大的區(qū)別是,需要考慮個人信息的利用程度,另外,個性化的對話的一個數(shù)據(jù)更難獲得,所以我們需要考慮在數(shù)據(jù)不足的情況下,應該怎樣去解決。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 慕課學院觀看。關注微信公眾號:AI 研習社,可獲取最新公開課直播時間預告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

葉志豪:介紹強化學習及其在 NLP 上的應用 | 分享總結(jié)

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說