丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給張莉
發(fā)送

0

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

本文作者: 張莉 2018-08-26 15:21
導(dǎo)語:中文分級閱讀難點在哪?

近日,專注中文分級閱讀系統(tǒng)的考拉閱讀宣布完成了2000萬美金B(yǎng)輪融資,距去年12月A輪融資過去了9個月時間。

談到A輪以后的最新進展,趙梓淳表示,考拉閱讀App總?cè)栈盍恳呀?jīng)增漲到近百萬,平均日停留時長30分鐘,次日和次周的留存率達到70%以上,產(chǎn)品半年時間發(fā)版26次。

雷鋒網(wǎng)來到考拉閱讀北京辦公室,專訪了考拉閱讀CEO趙梓淳。

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

中文分級閱讀難點在哪?

分級閱讀有幾百年的歷史,歐美都比較普及。在中國,引入分級閱讀的時間也不短,但是,中國跟美國最大的不同在于,無論是像中文在線還是其他公司,基本上停留在書單形式,根據(jù)學(xué)生年級或年齡來區(qū)分書單。

“但是,真正的分級閱讀應(yīng)該像歐美那樣,根據(jù)學(xué)生的閱讀能力進行匹配。通過分級閱讀把閱讀解放出來,讓孩子找到適合自己的東西。但為什么之前沒人像我們這樣做,最大的難點就在于中文文本難度的測量,即如何科學(xué)劃分文本難度的等級?!?/p>

首先,中文和英文存在著非常大的差異,不同于西方印歐語系繁復(fù)的格標(biāo)記語法系統(tǒng),漢語語法過于靈活、意合語義相當(dāng)復(fù)雜。英文的基礎(chǔ)組成單位是26個字母,中文的組成單位是字,常用的漢字大概就有3500個。《康熙字典》收錄的漢字大概就有8萬到10萬個漢字,這種復(fù)雜構(gòu)成的稀缺性會導(dǎo)致分析中文的時候,往往需要更龐大的語料。

第二,現(xiàn)代漢語的歷史很短,中國的學(xué)者、專家,對中國的漢語言、語言學(xué)的一些累積和沉淀其實很少,真正進行科學(xué)化的一些研究時間并不長,積淀也不夠。

第三,分級閱讀還涉及到數(shù)據(jù)挖掘、語言學(xué)、測量心理學(xué)、閱讀測量學(xué)等各學(xué)科的聯(lián)動。

最后,更關(guān)鍵的是,在深度學(xué)習(xí)普遍應(yīng)用之前,沒有技術(shù)能解決這樣的問題。10年前或者20年前的技術(shù),其實不太能解決當(dāng)時遇到的這個問題,例如美國的藍思分級,主要運用的是語言學(xué)家傳統(tǒng)的統(tǒng)計學(xué),所以其實沒有用太多的高深的技術(shù)。中文閱讀分級要想完成規(guī)?;慕鉀Q方案只能依賴于現(xiàn)代科學(xué)技術(shù)的發(fā)展。

據(jù)介紹,考拉閱讀歷時兩年,構(gòu)建起全球最大的中文分級底層語料庫,結(jié)合語言學(xué)、測量心理學(xué)以及深度神經(jīng)網(wǎng)絡(luò)為代表的前沿AI算法解決了這一難題。

“我們邀請常年參加教學(xué)研究的專業(yè)學(xué)者和經(jīng)驗豐富的教學(xué)專家參與難度判斷和標(biāo)準(zhǔn)制定,通過上萬篇文本測試,發(fā)現(xiàn)準(zhǔn)確度能達到93%左右?!?/p>

AI驅(qū)動的學(xué)習(xí)系統(tǒng)

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

圖片來源:考拉閱讀App界面

考拉閱讀的產(chǎn)品有學(xué)生端、教師端App,還有考拉家長微信小程序。有兩項特點。

一是游戲化。“我們最早做考拉閱讀產(chǎn)品時,借鑒了國外的產(chǎn)品,做的比較嚴(yán)肅,缺乏游戲和動漫色彩。但做了一段時間后發(fā)現(xiàn),嚴(yán)肅產(chǎn)品對中國學(xué)生缺乏吸引力,小學(xué)生還是喜歡比較游戲化的東西,后來對此做了調(diào)整,引進了一位優(yōu)酷少兒的設(shè)計師,使整個UI和孩子的契合度越來越高。”

雷鋒網(wǎng)試用了考拉閱讀學(xué)生端App,主界面第一欄即為“短文星球”小游戲;第二欄的「探索世界」為ER值不同的閱讀文本;第三欄「聽書電臺」為和喜馬拉雅合作的音頻欄目;第三欄為組詞闖關(guān)游戲,第四欄又轉(zhuǎn)為標(biāo)注ER值的故事文本,此外,還有童話島、每日晨讀、書籍專題、同學(xué)熱讀、書籍海洋等閱讀欄目。

二是AI驅(qū)動?!拔覀兪菍⒌讓拥腁I算法應(yīng)用到產(chǎn)品層面。這套算法類似于今日頭條,只不過今日頭條是內(nèi)容推動算法,無論是交叉推薦還是做用戶畫像,都是根據(jù)興趣推薦用戶喜歡的內(nèi)容。而我們的推薦算法是根據(jù)學(xué)生閱讀能力進行匹配,使用的頻率越多,推薦的準(zhǔn)確度就越高?!?/p>

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

圖片來源:考拉閱讀提供

“因為中文句子相較英文要復(fù)雜得多,機器在理解中文第一步時就會遇到詞性分析、語言模型上的困難。所以,有賴于現(xiàn)在流行的AI技術(shù),如RNN、LSTM等深度學(xué)習(xí)技術(shù),可以彌補中文在NLP上的缺失。我們將一個句子按照句法樹、依賴關(guān)聯(lián)等予以拆解,以分析每一個成分在句子中的比重,從而實現(xiàn)閱讀文本的難度分級。”

據(jù)介紹,考拉閱讀一共處理了1300萬字的非平衡語料庫和2億字的平衡語料庫。其中,非平衡語料庫主要來自各個版本的小學(xué)教材及其教輔資料;平衡語料庫指一個孩子在日常生活中需要真實接觸的語料,如,按照一位10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。

考拉閱讀的人工智能主要應(yīng)用,除了打造底層分級標(biāo)準(zhǔn),還有自適應(yīng)學(xué)習(xí)系統(tǒng),即學(xué)生端App會根據(jù)學(xué)生閱讀能力自動推薦相應(yīng)內(nèi)容。

談到現(xiàn)在火熱的自適應(yīng)學(xué)習(xí),趙梓淳表示,自適應(yīng)學(xué)習(xí)不宜被過分夸大,基于知識圖譜的自適應(yīng)學(xué)習(xí)有一定意義,可以避免學(xué)生重復(fù)做已經(jīng)掌握的題目,節(jié)省時間提高效率,“但這件事并沒有多難,其實就是把知識圖譜做的足夠細,而這個主要考驗的是教研能力,那你說這個事兒有多顛覆呢?坦白說,沒有多顛覆?!?/p>

此外,考拉閱讀也正在進行智能語音產(chǎn)品研發(fā),可以通過語音輸入測試學(xué)生的普通話標(biāo)準(zhǔn)程度。

打造中國的“藍思標(biāo)準(zhǔn)”

國外的分級閱讀標(biāo)準(zhǔn)體系已經(jīng)很成熟,比如培生公司推出的測定少兒英文閱讀能力的DRA(Developmental Reading Assessment)發(fā)展性閱讀評估體系;英國 Renaissance Learning 公司開發(fā)的AR(Accelerated Reader)分級系統(tǒng);還有著名的藍思閱讀測評體系(The Lexile Framework for Reading),該體系由美國Metametircs教育公司經(jīng)過15年研究開發(fā)出來,美國使用藍思的機構(gòu)遍布50個州,約覆蓋全國學(xué)生人數(shù)的50%。

藍思閱讀測評體系從讀物難度和讀者閱讀能力兩方面進行衡量,使用的是同一個度量標(biāo)尺,因此讀者可以根據(jù)自己的閱讀能力,選擇適合自己的讀物。難度范圍為0L~1700L,數(shù)字越小表示讀物難度越低或讀者閱讀能力越低,反之則表示讀物難度越高或讀者閱讀能力越高。主要從兩個維度來衡量讀物難度,即語義難度(Semantic Difficulty)和句法難度(Syntactic Complexity)。

考拉閱讀推出的中文分級閱讀標(biāo)準(zhǔn)(ER Framework )借鑒了國外的“詞、句”的分析思想,度量方式也和藍思極為相似。(ER為考拉閱讀品牌所屬公司享閱科技的英文名Enjoy Reading的縮寫。)

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

圖片來源:考拉閱讀提供

一方面,把任意的中文文本測出來,從200ER到1300ER,以10為一個進制。另一方面,運用測量心理學(xué)、閱讀測量學(xué)和語言學(xué)的方法,測人的閱讀能力,也是從200ER到1300ER,以10為一個進制。

“如果一個孩子測出來是600ER的閱讀能力,他到底能夠看多大難度的文本?是600還是610?我們提出一個叫ZPD ( Zone of Proximal Development ) 的概念,借鑒了著名心理學(xué)家維果斯基提出的‘最近發(fā)展區(qū)’,即能力范圍內(nèi)可以做得到的區(qū)間。 別總做一些很簡單的事情,但如果做特別難的事情,久而久之也喪失信心?!?/p>

“例如600ER的孩子,我們做了大量的實驗,她/他的ZPD范圍大概是550到700。這個區(qū)間代表了孩子探究文本的理解程度在50%到59%之間,既不會因為文本太難而讀不懂,也不會因為文本太簡單而讀不到新內(nèi)容?!?/p>

專訪考拉閱讀CEO趙梓淳:用AI打造中國的“藍思標(biāo)準(zhǔn)”

圖片來源:考拉閱讀App截圖

具體測試方式,趙梓淳向雷鋒網(wǎng)解釋,是在手機上進行時長約三分鐘的測試,即可估測學(xué)生的閱讀等級。

至于商業(yè)模式,“目前主要是和公立學(xué)校合作,已經(jīng)在二、三線城市的近萬所小學(xué)落地。未來一定是ToC的,但現(xiàn)在沒有做任何嘗試,學(xué)生、老師和家長都可以免費使用。我們目前其實還不太考慮盈利的事,先擴大規(guī)模,如果說全中國小學(xué)生最后能夠用ER值來表征自己的閱讀能力,所有的人都用ER值來表征文本難度,這件事情背后蘊藏著很大的機會?!?/p>

“我們準(zhǔn)備明年公布整個底層標(biāo)準(zhǔn),所采用的算法也可能會相繼公布?!?br/>

當(dāng)雷鋒網(wǎng)問到考拉閱讀目前面臨的最大挑戰(zhàn)是什么,趙梓淳表示:“最大的挑戰(zhàn)是沒有競爭對手可以對標(biāo)。這條路以前沒有人走過,不知道參照誰,每一步都要靠自己摸索?!?/p>

相關(guān)文章:

考拉閱讀完成2000萬美元B輪融資,用AI技術(shù)自研中文分級閱讀系統(tǒng)

考拉閱讀CEO趙梓淳:如何利用AI、語言學(xué)做出國內(nèi)首個中文分級閱讀系統(tǒng)?

前有“老大哥”,后有“新勢力”,AI+教育江湖誰主沉浮?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

主筆

本人微信:15010591263
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說