丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給張莉
發(fā)送

0

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

本文作者: 張莉 2018-08-26 15:21
導(dǎo)語(yǔ):中文分級(jí)閱讀難點(diǎn)在哪?

近日,專注中文分級(jí)閱讀系統(tǒng)的考拉閱讀宣布完成了2000萬(wàn)美金B(yǎng)輪融資,距去年12月A輪融資過(guò)去了9個(gè)月時(shí)間。

談到A輪以后的最新進(jìn)展,趙梓淳表示,考拉閱讀App總?cè)栈盍恳呀?jīng)增漲到近百萬(wàn),平均日停留時(shí)長(zhǎng)30分鐘,次日和次周的留存率達(dá)到70%以上,產(chǎn)品半年時(shí)間發(fā)版26次。

雷鋒網(wǎng)來(lái)到考拉閱讀北京辦公室,專訪了考拉閱讀CEO趙梓淳。

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

中文分級(jí)閱讀難點(diǎn)在哪?

分級(jí)閱讀有幾百年的歷史,歐美都比較普及。在中國(guó),引入分級(jí)閱讀的時(shí)間也不短,但是,中國(guó)跟美國(guó)最大的不同在于,無(wú)論是像中文在線還是其他公司,基本上停留在書(shū)單形式,根據(jù)學(xué)生年級(jí)或年齡來(lái)區(qū)分書(shū)單。

“但是,真正的分級(jí)閱讀應(yīng)該像歐美那樣,根據(jù)學(xué)生的閱讀能力進(jìn)行匹配。通過(guò)分級(jí)閱讀把閱讀解放出來(lái),讓孩子找到適合自己的東西。但為什么之前沒(méi)人像我們這樣做,最大的難點(diǎn)就在于中文文本難度的測(cè)量,即如何科學(xué)劃分文本難度的等級(jí)?!?/p>

首先,中文和英文存在著非常大的差異,不同于西方印歐語(yǔ)系繁復(fù)的格標(biāo)記語(yǔ)法系統(tǒng),漢語(yǔ)語(yǔ)法過(guò)于靈活、意合語(yǔ)義相當(dāng)復(fù)雜。英文的基礎(chǔ)組成單位是26個(gè)字母,中文的組成單位是字,常用的漢字大概就有3500個(gè)。《康熙字典》收錄的漢字大概就有8萬(wàn)到10萬(wàn)個(gè)漢字,這種復(fù)雜構(gòu)成的稀缺性會(huì)導(dǎo)致分析中文的時(shí)候,往往需要更龐大的語(yǔ)料。

第二,現(xiàn)代漢語(yǔ)的歷史很短,中國(guó)的學(xué)者、專家,對(duì)中國(guó)的漢語(yǔ)言、語(yǔ)言學(xué)的一些累積和沉淀其實(shí)很少,真正進(jìn)行科學(xué)化的一些研究時(shí)間并不長(zhǎng),積淀也不夠。

第三,分級(jí)閱讀還涉及到數(shù)據(jù)挖掘、語(yǔ)言學(xué)、測(cè)量心理學(xué)、閱讀測(cè)量學(xué)等各學(xué)科的聯(lián)動(dòng)。

最后,更關(guān)鍵的是,在深度學(xué)習(xí)普遍應(yīng)用之前,沒(méi)有技術(shù)能解決這樣的問(wèn)題。10年前或者20年前的技術(shù),其實(shí)不太能解決當(dāng)時(shí)遇到的這個(gè)問(wèn)題,例如美國(guó)的藍(lán)思分級(jí),主要運(yùn)用的是語(yǔ)言學(xué)家傳統(tǒng)的統(tǒng)計(jì)學(xué),所以其實(shí)沒(méi)有用太多的高深的技術(shù)。中文閱讀分級(jí)要想完成規(guī)?;慕鉀Q方案只能依賴于現(xiàn)代科學(xué)技術(shù)的發(fā)展。

據(jù)介紹,考拉閱讀歷時(shí)兩年,構(gòu)建起全球最大的中文分級(jí)底層語(yǔ)料庫(kù),結(jié)合語(yǔ)言學(xué)、測(cè)量心理學(xué)以及深度神經(jīng)網(wǎng)絡(luò)為代表的前沿AI算法解決了這一難題。

“我們邀請(qǐng)常年參加教學(xué)研究的專業(yè)學(xué)者和經(jīng)驗(yàn)豐富的教學(xué)專家參與難度判斷和標(biāo)準(zhǔn)制定,通過(guò)上萬(wàn)篇文本測(cè)試,發(fā)現(xiàn)準(zhǔn)確度能達(dá)到93%左右?!?/p>

AI驅(qū)動(dòng)的學(xué)習(xí)系統(tǒng)

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

圖片來(lái)源:考拉閱讀App界面

考拉閱讀的產(chǎn)品有學(xué)生端、教師端App,還有考拉家長(zhǎng)微信小程序。有兩項(xiàng)特點(diǎn)。

一是游戲化?!拔覀冏钤缱隹祭喿x產(chǎn)品時(shí),借鑒了國(guó)外的產(chǎn)品,做的比較嚴(yán)肅,缺乏游戲和動(dòng)漫色彩。但做了一段時(shí)間后發(fā)現(xiàn),嚴(yán)肅產(chǎn)品對(duì)中國(guó)學(xué)生缺乏吸引力,小學(xué)生還是喜歡比較游戲化的東西,后來(lái)對(duì)此做了調(diào)整,引進(jìn)了一位優(yōu)酷少兒的設(shè)計(jì)師,使整個(gè)UI和孩子的契合度越來(lái)越高?!?/p>

雷鋒網(wǎng)試用了考拉閱讀學(xué)生端App,主界面第一欄即為“短文星球”小游戲;第二欄的「探索世界」為ER值不同的閱讀文本;第三欄「聽(tīng)書(shū)電臺(tái)」為和喜馬拉雅合作的音頻欄目;第三欄為組詞闖關(guān)游戲,第四欄又轉(zhuǎn)為標(biāo)注ER值的故事文本,此外,還有童話島、每日晨讀、書(shū)籍專題、同學(xué)熱讀、書(shū)籍海洋等閱讀欄目。

二是AI驅(qū)動(dòng)?!拔覀兪菍⒌讓拥腁I算法應(yīng)用到產(chǎn)品層面。這套算法類似于今日頭條,只不過(guò)今日頭條是內(nèi)容推動(dòng)算法,無(wú)論是交叉推薦還是做用戶畫(huà)像,都是根據(jù)興趣推薦用戶喜歡的內(nèi)容。而我們的推薦算法是根據(jù)學(xué)生閱讀能力進(jìn)行匹配,使用的頻率越多,推薦的準(zhǔn)確度就越高?!?/p>

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

圖片來(lái)源:考拉閱讀提供

“因?yàn)橹形木渥酉噍^英文要復(fù)雜得多,機(jī)器在理解中文第一步時(shí)就會(huì)遇到詞性分析、語(yǔ)言模型上的困難。所以,有賴于現(xiàn)在流行的AI技術(shù),如RNN、LSTM等深度學(xué)習(xí)技術(shù),可以彌補(bǔ)中文在NLP上的缺失。我們將一個(gè)句子按照句法樹(shù)、依賴關(guān)聯(lián)等予以拆解,以分析每一個(gè)成分在句子中的比重,從而實(shí)現(xiàn)閱讀文本的難度分級(jí)?!?/p>

據(jù)介紹,考拉閱讀一共處理了1300萬(wàn)字的非平衡語(yǔ)料庫(kù)和2億字的平衡語(yǔ)料庫(kù)。其中,非平衡語(yǔ)料庫(kù)主要來(lái)自各個(gè)版本的小學(xué)教材及其教輔資料;平衡語(yǔ)料庫(kù)指一個(gè)孩子在日常生活中需要真實(shí)接觸的語(yǔ)料,如,按照一位10歲小孩需要看20%的名著小說(shuō)、50%的課文和20%的漫畫(huà)這種比例來(lái)配語(yǔ)料庫(kù)。

考拉閱讀的人工智能主要應(yīng)用,除了打造底層分級(jí)標(biāo)準(zhǔn),還有自適應(yīng)學(xué)習(xí)系統(tǒng),即學(xué)生端App會(huì)根據(jù)學(xué)生閱讀能力自動(dòng)推薦相應(yīng)內(nèi)容。

談到現(xiàn)在火熱的自適應(yīng)學(xué)習(xí),趙梓淳表示,自適應(yīng)學(xué)習(xí)不宜被過(guò)分夸大,基于知識(shí)圖譜的自適應(yīng)學(xué)習(xí)有一定意義,可以避免學(xué)生重復(fù)做已經(jīng)掌握的題目,節(jié)省時(shí)間提高效率,“但這件事并沒(méi)有多難,其實(shí)就是把知識(shí)圖譜做的足夠細(xì),而這個(gè)主要考驗(yàn)的是教研能力,那你說(shuō)這個(gè)事兒有多顛覆呢?坦白說(shuō),沒(méi)有多顛覆?!?/p>

此外,考拉閱讀也正在進(jìn)行智能語(yǔ)音產(chǎn)品研發(fā),可以通過(guò)語(yǔ)音輸入測(cè)試學(xué)生的普通話標(biāo)準(zhǔn)程度。

打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

國(guó)外的分級(jí)閱讀標(biāo)準(zhǔn)體系已經(jīng)很成熟,比如培生公司推出的測(cè)定少兒英文閱讀能力的DRA(Developmental Reading Assessment)發(fā)展性閱讀評(píng)估體系;英國(guó) Renaissance Learning 公司開(kāi)發(fā)的AR(Accelerated Reader)分級(jí)系統(tǒng);還有著名的藍(lán)思閱讀測(cè)評(píng)體系(The Lexile Framework for Reading),該體系由美國(guó)Metametircs教育公司經(jīng)過(guò)15年研究開(kāi)發(fā)出來(lái),美國(guó)使用藍(lán)思的機(jī)構(gòu)遍布50個(gè)州,約覆蓋全國(guó)學(xué)生人數(shù)的50%。

藍(lán)思閱讀測(cè)評(píng)體系從讀物難度和讀者閱讀能力兩方面進(jìn)行衡量,使用的是同一個(gè)度量標(biāo)尺,因此讀者可以根據(jù)自己的閱讀能力,選擇適合自己的讀物。難度范圍為0L~1700L,數(shù)字越小表示讀物難度越低或讀者閱讀能力越低,反之則表示讀物難度越高或讀者閱讀能力越高。主要從兩個(gè)維度來(lái)衡量讀物難度,即語(yǔ)義難度(Semantic Difficulty)和句法難度(Syntactic Complexity)。

考拉閱讀推出的中文分級(jí)閱讀標(biāo)準(zhǔn)(ER Framework )借鑒了國(guó)外的“詞、句”的分析思想,度量方式也和藍(lán)思極為相似。(ER為考拉閱讀品牌所屬公司享閱科技的英文名Enjoy Reading的縮寫(xiě)。)

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

圖片來(lái)源:考拉閱讀提供

一方面,把任意的中文文本測(cè)出來(lái),從200ER到1300ER,以10為一個(gè)進(jìn)制。另一方面,運(yùn)用測(cè)量心理學(xué)、閱讀測(cè)量學(xué)和語(yǔ)言學(xué)的方法,測(cè)人的閱讀能力,也是從200ER到1300ER,以10為一個(gè)進(jìn)制。

“如果一個(gè)孩子測(cè)出來(lái)是600ER的閱讀能力,他到底能夠看多大難度的文本?是600還是610?我們提出一個(gè)叫ZPD ( Zone of Proximal Development ) 的概念,借鑒了著名心理學(xué)家維果斯基提出的‘最近發(fā)展區(qū)’,即能力范圍內(nèi)可以做得到的區(qū)間。 別總做一些很簡(jiǎn)單的事情,但如果做特別難的事情,久而久之也喪失信心?!?/p>

“例如600ER的孩子,我們做了大量的實(shí)驗(yàn),她/他的ZPD范圍大概是550到700。這個(gè)區(qū)間代表了孩子探究文本的理解程度在50%到59%之間,既不會(huì)因?yàn)槲谋咎y而讀不懂,也不會(huì)因?yàn)槲谋咎?jiǎn)單而讀不到新內(nèi)容?!?/p>

專訪考拉閱讀CEO趙梓淳:用AI打造中國(guó)的“藍(lán)思標(biāo)準(zhǔn)”

圖片來(lái)源:考拉閱讀App截圖

具體測(cè)試方式,趙梓淳向雷鋒網(wǎng)解釋,是在手機(jī)上進(jìn)行時(shí)長(zhǎng)約三分鐘的測(cè)試,即可估測(cè)學(xué)生的閱讀等級(jí)。

至于商業(yè)模式,“目前主要是和公立學(xué)校合作,已經(jīng)在二、三線城市的近萬(wàn)所小學(xué)落地。未來(lái)一定是ToC的,但現(xiàn)在沒(méi)有做任何嘗試,學(xué)生、老師和家長(zhǎng)都可以免費(fèi)使用。我們目前其實(shí)還不太考慮盈利的事,先擴(kuò)大規(guī)模,如果說(shuō)全中國(guó)小學(xué)生最后能夠用ER值來(lái)表征自己的閱讀能力,所有的人都用ER值來(lái)表征文本難度,這件事情背后蘊(yùn)藏著很大的機(jī)會(huì)。”

“我們準(zhǔn)備明年公布整個(gè)底層標(biāo)準(zhǔn),所采用的算法也可能會(huì)相繼公布?!?br/>

當(dāng)雷鋒網(wǎng)問(wèn)到考拉閱讀目前面臨的最大挑戰(zhàn)是什么,趙梓淳表示:“最大的挑戰(zhàn)是沒(méi)有競(jìng)爭(zhēng)對(duì)手可以對(duì)標(biāo)。這條路以前沒(méi)有人走過(guò),不知道參照誰(shuí),每一步都要靠自己摸索?!?/p>

相關(guān)文章:

考拉閱讀完成2000萬(wàn)美元B輪融資,用AI技術(shù)自研中文分級(jí)閱讀系統(tǒng)

考拉閱讀CEO趙梓淳:如何利用AI、語(yǔ)言學(xué)做出國(guó)內(nèi)首個(gè)中文分級(jí)閱讀系統(tǒng)?

前有“老大哥”,后有“新勢(shì)力”,AI+教育江湖誰(shuí)主沉浮?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

主筆

本人微信:15010591263
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)