專訪考拉閱讀CEO趙梓淳：用AI打造中國的“藍(lán)思標(biāo)準(zhǔn)”

本文作者：張莉

2018-08-26 15:21

導(dǎo)語：中文分級(jí)閱讀難點(diǎn)在哪？

近日，專注中文分級(jí)閱讀系統(tǒng)的考拉閱讀宣布完成了2000萬美金B(yǎng)輪融資，距去年12月A輪融資過去了9個(gè)月時(shí)間。

談到A輪以后的最新進(jìn)展，趙梓淳表示，考拉閱讀App總?cè)栈盍恳呀?jīng)增漲到近百萬，平均日停留時(shí)長30分鐘，次日和次周的留存率達(dá)到70%以上，產(chǎn)品半年時(shí)間發(fā)版26次。

雷鋒網(wǎng)來到考拉閱讀北京辦公室，專訪了考拉閱讀CEO趙梓淳。

專訪考拉閱讀CEO趙梓淳：用AI打造中國的“藍(lán)思標(biāo)準(zhǔn)”

中文分級(jí)閱讀難點(diǎn)在哪？

分級(jí)閱讀有幾百年的歷史，歐美都比較普及。在中國，引入分級(jí)閱讀的時(shí)間也不短，但是，中國跟美國最大的不同在于，無論是像中文在線還是其他公司，基本上停留在書單形式，根據(jù)學(xué)生年級(jí)或年齡來區(qū)分書單。

“但是，真正的分級(jí)閱讀應(yīng)該像歐美那樣，根據(jù)學(xué)生的閱讀能力進(jìn)行匹配。通過分級(jí)閱讀把閱讀解放出來，讓孩子找到適合自己的東西。但為什么之前沒人像我們這樣做，最大的難點(diǎn)就在于中文文本難度的測(cè)量，即如何科學(xué)劃分文本難度的等級(jí)。”

首先，中文和英文存在著非常大的差異，不同于西方印歐語系繁復(fù)的格標(biāo)記語法系統(tǒng)，漢語語法過于靈活、意合語義相當(dāng)復(fù)雜。英文的基礎(chǔ)組成單位是26個(gè)字母，中文的組成單位是字，常用的漢字大概就有3500個(gè)?！犊滴踝值洹肥珍浀臐h字大概就有8萬到10萬個(gè)漢字，這種復(fù)雜構(gòu)成的稀缺性會(huì)導(dǎo)致分析中文的時(shí)候，往往需要更龐大的語料。

第二，現(xiàn)代漢語的歷史很短，中國的學(xué)者、專家，對(duì)中國的漢語言、語言學(xué)的一些累積和沉淀其實(shí)很少，真正進(jìn)行科學(xué)化的一些研究時(shí)間并不長，積淀也不夠。

第三，分級(jí)閱讀還涉及到數(shù)據(jù)挖掘、語言學(xué)、測(cè)量心理學(xué)、閱讀測(cè)量學(xué)等各學(xué)科的聯(lián)動(dòng)。

最后，更關(guān)鍵的是，在深度學(xué)習(xí)普遍應(yīng)用之前，沒有技術(shù)能解決這樣的問題。10年前或者20年前的技術(shù)，其實(shí)不太能解決當(dāng)時(shí)遇到的這個(gè)問題，例如美國的藍(lán)思分級(jí)，主要運(yùn)用的是語言學(xué)家傳統(tǒng)的統(tǒng)計(jì)學(xué)，所以其實(shí)沒有用太多的高深的技術(shù)。中文閱讀分級(jí)要想完成規(guī)?；慕鉀Q方案只能依賴于現(xiàn)代科學(xué)技術(shù)的發(fā)展。

據(jù)介紹，考拉閱讀歷時(shí)兩年，構(gòu)建起全球最大的中文分級(jí)底層語料庫，結(jié)合語言學(xué)、測(cè)量心理學(xué)以及深度神經(jīng)網(wǎng)絡(luò)為代表的前沿AI算法解決了這一難題。

“我們邀請(qǐng)常年參加教學(xué)研究的專業(yè)學(xué)者和經(jīng)驗(yàn)豐富的教學(xué)專家參與難度判斷和標(biāo)準(zhǔn)制定，通過上萬篇文本測(cè)試，發(fā)現(xiàn)準(zhǔn)確度能達(dá)到93%左右。”

AI驅(qū)動(dòng)的學(xué)習(xí)系統(tǒng)

圖片來源：考拉閱讀App界面

考拉閱讀的產(chǎn)品有學(xué)生端、教師端App，還有考拉家長微信小程序。有兩項(xiàng)特點(diǎn)。

一是游戲化?！拔覀冏钤缱隹祭喿x產(chǎn)品時(shí)，借鑒了國外的產(chǎn)品，做的比較嚴(yán)肅，缺乏游戲和動(dòng)漫色彩。但做了一段時(shí)間后發(fā)現(xiàn)，嚴(yán)肅產(chǎn)品對(duì)中國學(xué)生缺乏吸引力，小學(xué)生還是喜歡比較游戲化的東西，后來對(duì)此做了調(diào)整，引進(jìn)了一位優(yōu)酷少兒的設(shè)計(jì)師，使整個(gè)UI和孩子的契合度越來越高。”

雷鋒網(wǎng)試用了考拉閱讀學(xué)生端App，主界面第一欄即為“短文星球”小游戲；第二欄的「探索世界」為ER值不同的閱讀文本；第三欄「聽書電臺(tái)」為和喜馬拉雅合作的音頻欄目；第三欄為組詞闖關(guān)游戲，第四欄又轉(zhuǎn)為標(biāo)注ER值的故事文本，此外，還有童話島、每日晨讀、書籍專題、同學(xué)熱讀、書籍海洋等閱讀欄目。

二是AI驅(qū)動(dòng)。“我們是將底層的AI算法應(yīng)用到產(chǎn)品層面。這套算法類似于今日頭條，只不過今日頭條是內(nèi)容推動(dòng)算法，無論是交叉推薦還是做用戶畫像，都是根據(jù)興趣推薦用戶喜歡的內(nèi)容。而我們的推薦算法是根據(jù)學(xué)生閱讀能力進(jìn)行匹配，使用的頻率越多，推薦的準(zhǔn)確度就越高?！?/p>

專訪考拉閱讀CEO趙梓淳：用AI打造中國的“藍(lán)思標(biāo)準(zhǔn)”

圖片來源：考拉閱讀提供

“因?yàn)橹形木渥酉噍^英文要復(fù)雜得多，機(jī)器在理解中文第一步時(shí)就會(huì)遇到詞性分析、語言模型上的困難。所以，有賴于現(xiàn)在流行的AI技術(shù)，如RNN、LSTM等深度學(xué)習(xí)技術(shù)，可以彌補(bǔ)中文在NLP上的缺失。我們將一個(gè)句子按照句法樹、依賴關(guān)聯(lián)等予以拆解，以分析每一個(gè)成分在句子中的比重，從而實(shí)現(xiàn)閱讀文本的難度分級(jí)。”

據(jù)介紹，考拉閱讀一共處理了1300萬字的非平衡語料庫和2億字的平衡語料庫。其中，非平衡語料庫主要來自各個(gè)版本的小學(xué)教材及其教輔資料；平衡語料庫指一個(gè)孩子在日常生活中需要真實(shí)接觸的語料，如，按照一位10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。

考拉閱讀的人工智能主要應(yīng)用，除了打造底層分級(jí)標(biāo)準(zhǔn)，還有自適應(yīng)學(xué)習(xí)系統(tǒng)，即學(xué)生端App會(huì)根據(jù)學(xué)生閱讀能力自動(dòng)推薦相應(yīng)內(nèi)容。

談到現(xiàn)在火熱的自適應(yīng)學(xué)習(xí)，趙梓淳表示，自適應(yīng)學(xué)習(xí)不宜被過分夸大，基于知識(shí)圖譜的自適應(yīng)學(xué)習(xí)有一定意義，可以避免學(xué)生重復(fù)做已經(jīng)掌握的題目，節(jié)省時(shí)間提高效率，“但這件事并沒有多難，其實(shí)就是把知識(shí)圖譜做的足夠細(xì)，而這個(gè)主要考驗(yàn)的是教研能力，那你說這個(gè)事兒有多顛覆呢？坦白說，沒有多顛覆?！?/p>

此外，考拉閱讀也正在進(jìn)行智能語音產(chǎn)品研發(fā)，可以通過語音輸入測(cè)試學(xué)生的普通話標(biāo)準(zhǔn)程度。

打造中國的“藍(lán)思標(biāo)準(zhǔn)”

國外的分級(jí)閱讀標(biāo)準(zhǔn)體系已經(jīng)很成熟，比如培生公司推出的測(cè)定少兒英文閱讀能力的DRA（Developmental Reading Assessment）發(fā)展性閱讀評(píng)估體系；英國 Renaissance Learning 公司開發(fā)的AR（Accelerated Reader）分級(jí)系統(tǒng)；還有著名的藍(lán)思閱讀測(cè)評(píng)體系（The Lexile Framework for Reading），該體系由美國Metametircs教育公司經(jīng)過15年研究開發(fā)出來，美國使用藍(lán)思的機(jī)構(gòu)遍布50個(gè)州，約覆蓋全國學(xué)生人數(shù)的50%。

藍(lán)思閱讀測(cè)評(píng)體系從讀物難度和讀者閱讀能力兩方面進(jìn)行衡量，使用的是同一個(gè)度量標(biāo)尺，因此讀者可以根據(jù)自己的閱讀能力，選擇適合自己的讀物。難度范圍為0L~1700L，數(shù)字越小表示讀物難度越低或讀者閱讀能力越低，反之則表示讀物難度越高或讀者閱讀能力越高。主要從兩個(gè)維度來衡量讀物難度，即語義難度（Semantic Difficulty）和句法難度（Syntactic Complexity）。

考拉閱讀推出的中文分級(jí)閱讀標(biāo)準(zhǔn)（ER Framework ）借鑒了國外的“詞、句”的分析思想，度量方式也和藍(lán)思極為相似。（ER為考拉閱讀品牌所屬公司享閱科技的英文名Enjoy Reading的縮寫。）

專訪考拉閱讀CEO趙梓淳：用AI打造中國的“藍(lán)思標(biāo)準(zhǔn)”

圖片來源：考拉閱讀提供

一方面，把任意的中文文本測(cè)出來，從200ER到1300ER，以10為一個(gè)進(jìn)制。另一方面，運(yùn)用測(cè)量心理學(xué)、閱讀測(cè)量學(xué)和語言學(xué)的方法，測(cè)人的閱讀能力，也是從200ER到1300ER，以10為一個(gè)進(jìn)制。

“如果一個(gè)孩子測(cè)出來是600ER的閱讀能力，他到底能夠看多大難度的文本？是600還是610？我們提出一個(gè)叫ZPD ( Zone of Proximal Development ) 的概念，借鑒了著名心理學(xué)家維果斯基提出的‘最近發(fā)展區(qū)’，即能力范圍內(nèi)可以做得到的區(qū)間。別總做一些很簡(jiǎn)單的事情，但如果做特別難的事情，久而久之也喪失信心?！?/p>

“例如600ER的孩子，我們做了大量的實(shí)驗(yàn)，她/他的ZPD范圍大概是550到700。這個(gè)區(qū)間代表了孩子探究文本的理解程度在50%到59%之間，既不會(huì)因?yàn)槲谋咎y而讀不懂，也不會(huì)因?yàn)槲谋咎?jiǎn)單而讀不到新內(nèi)容?！?/p>

專訪考拉閱讀CEO趙梓淳：用AI打造中國的“藍(lán)思標(biāo)準(zhǔn)”

圖片來源：考拉閱讀App截圖

具體測(cè)試方式，趙梓淳向雷鋒網(wǎng)解釋，是在手機(jī)上進(jìn)行時(shí)長約三分鐘的測(cè)試，即可估測(cè)學(xué)生的閱讀等級(jí)。

至于商業(yè)模式，“目前主要是和公立學(xué)校合作，已經(jīng)在二、三線城市的近萬所小學(xué)落地。未來一定是ToC的，但現(xiàn)在沒有做任何嘗試，學(xué)生、老師和家長都可以免費(fèi)使用。我們目前其實(shí)還不太考慮盈利的事，先擴(kuò)大規(guī)模，如果說全中國小學(xué)生最后能夠用ER值來表征自己的閱讀能力，所有的人都用ER值來表征文本難度，這件事情背后蘊(yùn)藏著很大的機(jī)會(huì)?！?/p>

“我們準(zhǔn)備明年公布整個(gè)底層標(biāo)準(zhǔn)，所采用的算法也可能會(huì)相繼公布?！?br/>

當(dāng)雷鋒網(wǎng)問到考拉閱讀目前面臨的最大挑戰(zhàn)是什么，趙梓淳表示:“最大的挑戰(zhàn)是沒有競(jìng)爭(zhēng)對(duì)手可以對(duì)標(biāo)。這條路以前沒有人走過，不知道參照誰，每一步都要靠自己摸索?！?/p>

考拉閱讀CEO趙梓淳：如何利用AI、語言學(xué)做出國內(nèi)首個(gè)中文分級(jí)閱讀系統(tǒng)？

前有“老大哥”，后有“新勢(shì)力”，AI+教育江湖誰主沉??？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

張莉

主筆

本人微信：15010591263

發(fā)私信

當(dāng)月熱門文章