0
2017年7月國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,規(guī)劃中特別提到,將加快推動(dòng)新型教育體系、智能校園建設(shè)以及開(kāi)發(fā)智能教育助理。隨著人工智能技術(shù)的發(fā)展,AI+教育賽道受到資本追捧,好未來(lái)、新東方、VIPKID、51talk、滬江、科大訊飛、英語(yǔ)流利說(shuō)等公司相繼宣布發(fā)力人工智能+教育, 集體打響攻堅(jiān)戰(zhàn); 在人工智能自適應(yīng)學(xué)習(xí)領(lǐng)域,Knewton、乂學(xué)教育成功融資等國(guó)內(nèi)外大額融資事件刺激市場(chǎng)關(guān)注度升溫。全國(guó)最大的中小學(xué)在線作業(yè)平臺(tái)一起教育科技也加入這一賽道,公開(kāi)宣布發(fā)力人工智能自適應(yīng)教育。
2018年3月20日,K12在線教育平臺(tái)一起作業(yè)宣布完成2.5億美金E輪融資,邁入10億美金估值獨(dú)角獸行列,同時(shí),將公司品牌從“一起作業(yè)”改為“一起教育科技”,并且發(fā)布了“Socrates”智能學(xué)習(xí)系統(tǒng)。
官方資料表明,目前公司整體業(yè)務(wù)包括一起作業(yè)、一起學(xué)、一起公益。而本輪融資將用于投入優(yōu)質(zhì)的教育內(nèi)容、人工智能和教育公益。截至2018年3月,一起教育科技用戶數(shù)達(dá)到6000萬(wàn),包含4000萬(wàn)學(xué)生,2000萬(wàn)家長(zhǎng)以及190萬(wàn)教師。用戶涵蓋中國(guó)31個(gè)省,363個(gè)城市近12萬(wàn)所學(xué)校,平臺(tái)上每天會(huì)產(chǎn)生上億條作業(yè)行為。
該公司表示,自公司成立以來(lái)就在技術(shù)方面持續(xù)投入,2017年,成立人工智能團(tuán)隊(duì),研發(fā)改進(jìn)自適應(yīng)學(xué)習(xí)系統(tǒng),并落地多款人工智能教育產(chǎn)品,全面推進(jìn)人工智能方向布局。
雷鋒網(wǎng)來(lái)到公司總部,對(duì)一起教育科技CEO劉暢和算法產(chǎn)品總監(jiān)羅侃進(jìn)行了專(zhuān)訪。
2017年一起教育科技 AI 團(tuán)隊(duì)成立,主要聚焦在 AI 技術(shù)在教育領(lǐng)域的研究和應(yīng)用。研究方向主要包括語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言理解、 數(shù)據(jù)挖掘等領(lǐng)域。團(tuán)隊(duì)自主研發(fā)了一系列 AI 成果并且應(yīng)用在教育領(lǐng)域, 其中包括口語(yǔ)評(píng)測(cè)、 手寫(xiě)識(shí)別、作文批改等。
談到為什么引入人工智能,劉暢說(shuō):“因?yàn)槲覀兘?jīng)常會(huì)高估技術(shù)眼前對(duì)于業(yè)務(wù)的改變,但是會(huì)低估技術(shù)對(duì)于整個(gè)教育行業(yè),當(dāng)然也包括對(duì)其他行業(yè)的改造。所以把時(shí)間線拉長(zhǎng)來(lái)看,你也不知道作業(yè)批改的、給家長(zhǎng)發(fā)評(píng)語(yǔ)的、發(fā)送報(bào)告的,是一個(gè)人還是一個(gè)機(jī)器。這些大概率會(huì)被機(jī)器取代。所以并不是今天出于某種營(yíng)收或融資的壓力來(lái)做所謂的人工智能,而是基于對(duì)于行業(yè)的理解和對(duì)于用戶需求的理解,我們是基于這個(gè)預(yù)判來(lái)進(jìn)行投入?!?/p>
一起教育科技人工智能產(chǎn)品中運(yùn)用了圖像識(shí)別、語(yǔ)音交互、自然語(yǔ)言處理、深度學(xué)習(xí)等技術(shù)。人工智能團(tuán)隊(duì)認(rèn)為技術(shù)應(yīng)該為應(yīng)用服務(wù),學(xué)習(xí)的過(guò)程中知識(shí)點(diǎn)掌握只是開(kāi)始,學(xué)科能力也只是個(gè)性化學(xué)習(xí)路徑的中間過(guò)程,最終的目的是掌握舉一反三的跨學(xué)科綜合能力。這種能力體系的建設(shè)依賴(lài)于豐富的素質(zhì)教育內(nèi)容和智能診斷、智能推薦等人工智能技術(shù)的結(jié)合。在3月20日發(fā)布會(huì)上,正式將該學(xué)習(xí)系統(tǒng)命名為“Socrates 智能學(xué)習(xí)系統(tǒng)”。
現(xiàn)階段,人工智能在教育領(lǐng)域主要體現(xiàn)在自適應(yīng)學(xué)習(xí)方向。而“Socrates 智能學(xué)習(xí)系統(tǒng)”,是經(jīng)過(guò)改進(jìn)的一套自適應(yīng)學(xué)習(xí)系統(tǒng)。
《解碼自適應(yīng)學(xué)習(xí)》的報(bào)告中定義,“自適應(yīng)學(xué)習(xí)是一種教育科技手段,它通過(guò)自主提供適合每位學(xué)生的獨(dú)立幫助,在現(xiàn)實(shí)中與學(xué)生產(chǎn)生實(shí)時(shí)互動(dòng)?!弊赃m應(yīng)學(xué)習(xí)的核心思想是通過(guò)構(gòu)建每個(gè)學(xué)生的能力評(píng)測(cè)模型, 來(lái)對(duì)學(xué)生進(jìn)行定制化的教育, 從而實(shí)現(xiàn)千人千面, 進(jìn)一步提升學(xué)習(xí)效率。
在 Socrates 智能學(xué)習(xí)系統(tǒng)下,系統(tǒng)會(huì)根據(jù)學(xué)生的數(shù)據(jù)量身定制個(gè)性化學(xué)習(xí)路徑,以實(shí)現(xiàn)學(xué)生知識(shí)和能力共同發(fā)展的目標(biāo)。在知識(shí)層面不超綱、不超前,讓學(xué)生用更少的時(shí)間、更有效的練習(xí),達(dá)成知識(shí)點(diǎn)的掌握和跨學(xué)科思維能力的建設(shè),學(xué)習(xí)知識(shí)的同時(shí)獲得終身受益的思維方式。
在傳統(tǒng)的學(xué)習(xí)規(guī)劃中, 受限于老師的人力成本, 對(duì)每個(gè)學(xué)生的能力缺乏細(xì)致的評(píng)估, 從而導(dǎo)致對(duì)每個(gè)學(xué)生的學(xué)習(xí)規(guī)劃是基本一致的, 同學(xué)們都在同一個(gè)進(jìn)度下進(jìn)行學(xué)習(xí),如果能夠更好地對(duì)學(xué)生進(jìn)行評(píng)測(cè), 從而能夠提供匹配學(xué)生當(dāng)前的能力的教材、作業(yè)、考試,這將極大的提高學(xué)生的能動(dòng)性和學(xué)習(xí)效率。
從技術(shù)角度講,在線教育要想真正達(dá)到有效需要完成下面的閉環(huán):
1. 準(zhǔn)確評(píng)測(cè)學(xué)生水平。
2. 針對(duì)現(xiàn)有水平推送訓(xùn)練。
3. 針對(duì)薄弱點(diǎn)背后訓(xùn)練思維能力。
4. 再次測(cè)試學(xué)生水平。
在上述步驟當(dāng)中,準(zhǔn)確測(cè)試是基礎(chǔ)也是最難的步驟。只有準(zhǔn)確知道學(xué)生真實(shí)的水平才能進(jìn)行針對(duì)性學(xué)習(xí)和訓(xùn)練。是后續(xù)提取知識(shí)薄弱點(diǎn)和背后的思維模型薄弱點(diǎn)的關(guān)鍵。人工智能團(tuán)隊(duì)對(duì)此經(jīng)歷了多個(gè)階段探索。
2015年, 一起教育科技引入了 IRT ( Item Response Theory ) 模型對(duì)學(xué)生能力進(jìn)行評(píng)測(cè)。但是隨著業(yè)務(wù)的拓展, IRT 本身存在著一定的缺陷。 IRT 的目的的通過(guò)對(duì)學(xué)生的做題來(lái)評(píng)估學(xué)生的能力,IRT 假設(shè)所有題目都是獨(dú)立不相關(guān)的。 但是實(shí)際中, 做題的順序, 以及題目之間的關(guān)系對(duì)學(xué)生能力的最終評(píng)估起到了非常重要的作用。舉個(gè)例子, 如果一個(gè)學(xué)生做了100道題目, 只對(duì)了50道題目, 那么可否認(rèn)為學(xué)生的能力為50分(滿分100), 如果這個(gè)學(xué)生是一開(kāi)始做錯(cuò)了50道題, 而后面50道題目全部做對(duì)呢?
為了更好的表示時(shí)序特征序列, 2016年引入BKT (Bayesian Knowledge Tracing ) 和 DKT(Deep Knowledge Tracing ) 模型。
BKT 模型在很長(zhǎng)一段時(shí)間內(nèi)作為最受歡迎的刻畫(huà)學(xué)生學(xué)習(xí)過(guò)程的時(shí)序模型, 可以基于答題記錄具體追蹤到某個(gè)知識(shí)點(diǎn)掌握程度上的改變,這個(gè)刻畫(huà)對(duì)某些類(lèi)型的產(chǎn)品(應(yīng)試教育類(lèi))是相當(dāng)合適的, 但是缺點(diǎn)在于參數(shù)估計(jì)穩(wěn)定性其實(shí)并不好,EM 算法下并不能保證居合道唯一參數(shù),并且在單體多知識(shí)點(diǎn)的處理上面, 會(huì)遇到參數(shù)爆炸的問(wèn)題。
一起教育科技結(jié)合了兩種模型的特點(diǎn)采用兩層 LSTMP 來(lái)替換 DKT 最初模型的 RNN 模型。LSTMP 可以通過(guò) gate 來(lái)控制關(guān)鍵時(shí)序序列的信號(hào), 使模型能夠有更長(zhǎng)的時(shí)序表征。同時(shí)在大數(shù)據(jù)訓(xùn)練情況下, 可以有效的避免梯度消失和梯度爆炸現(xiàn)象。
對(duì)于 IRT 而言,模型迭代后,擬合出來(lái) theta 值以及題目集的參數(shù),通過(guò)這些參數(shù)可以擬合出對(duì)特定知識(shí)點(diǎn)的掌握程度。而DKT則是在訓(xùn)練結(jié)束的 sigmod 層可以算出來(lái)學(xué)生對(duì)每個(gè)知識(shí)點(diǎn)的掌握程度,取數(shù)學(xué)數(shù)據(jù)舉例, 一起科技在小學(xué)數(shù)學(xué)和中學(xué)數(shù)學(xué)上分別計(jì)算對(duì)學(xué)生答題的預(yù)測(cè)準(zhǔn)確度。 DKT 在 AUC 上要明顯好于 IRT的評(píng)測(cè)效果。進(jìn)一步 , 針對(duì)每個(gè)學(xué)生, 可以計(jì)算出在時(shí)刻 T 上該學(xué)生的能力分布圖。
以上是針對(duì)學(xué)生個(gè)體構(gòu)建能力分布圖, 基于 DKT 模型對(duì)題目進(jìn)行建模( Chris Piech NIPS 2015 ),可以基于一組時(shí)序做題歷史記錄來(lái)預(yù)估某道題的被掌握可能性。 另外, 結(jié)合教研, 對(duì)題目本身進(jìn)行進(jìn)一步抽象歸納, 例如 知識(shí)點(diǎn)、考點(diǎn)、錯(cuò)因等,可以進(jìn)一步挖掘知識(shí)點(diǎn)(考點(diǎn)、錯(cuò)因)之間的關(guān)系。通過(guò)關(guān)聯(lián)度的統(tǒng)計(jì)分析, 可以進(jìn)一步挖掘出重要的知識(shí)點(diǎn)以及考點(diǎn), 例如對(duì)前置權(quán)重的統(tǒng)計(jì)加成, 可以得到關(guān)鍵知識(shí)點(diǎn)?;跈?quán)重的無(wú)監(jiān)督聚類(lèi), 則可以幫助發(fā)現(xiàn)知識(shí)點(diǎn)之間的冗余性。
例如下圖,圖中心位置的知識(shí)點(diǎn)為一元二次方程的解法-配方法,從此知識(shí)點(diǎn)出發(fā),與其相關(guān)度很高的是一元二次方程根判別式和一元二次方程解法-公式法,其后便是開(kāi)始接觸三角形類(lèi)的知識(shí)點(diǎn)以及勾股定理,而其前置便是一元一次方程類(lèi)的知識(shí)點(diǎn)。從機(jī)器所學(xué)習(xí)出來(lái)的結(jié)果上看,一元二次方程的解法-配方法是一個(gè)承上啟下的知識(shí)點(diǎn),這個(gè)不但符合現(xiàn)行的教學(xué)大綱,而且從出題的知識(shí)點(diǎn)組合的出現(xiàn)概率來(lái)看,也是很高頻的一個(gè)考察點(diǎn)。
一般情況下, 教學(xué)知識(shí)點(diǎn)都是以樹(shù)狀的形式展現(xiàn)出來(lái), 這樣可以很好的體現(xiàn)出教學(xué)的進(jìn)度以及概念的分層, 但是卻很難發(fā)現(xiàn)知識(shí)點(diǎn)與知識(shí)點(diǎn)的內(nèi)在關(guān)系, 通過(guò)構(gòu)建圖的方式, 而 DKT 模型可以將知識(shí)點(diǎn)圖譜和知識(shí)點(diǎn)樹(shù)有效的結(jié)合起來(lái), 為學(xué)生提供更豐富的學(xué)習(xí)路徑。
大數(shù)據(jù)為人工智能算法提供燃料
從技術(shù)上講,一起教育科技數(shù)據(jù)持續(xù)并且準(zhǔn)確。每個(gè) ID 都是實(shí)名綁定,可以精確獲得教材版本、學(xué)生班級(jí)、授課老師、學(xué)習(xí)進(jìn)度、作業(yè)情況,并且隨著學(xué)生年級(jí)提高數(shù)據(jù)持續(xù)更新。根據(jù)2018年3月份最新數(shù)據(jù),公司擁有6000萬(wàn)用戶,其中包含4000萬(wàn)中小學(xué)生,數(shù)據(jù)量本大,測(cè)試周期大幅度縮短,為后續(xù)人工智能打下良好基礎(chǔ)。雷鋒網(wǎng)下載了一起作業(yè)學(xué)生端App嘗試注冊(cè),注冊(cè)頁(yè)面顯示需要輸入老師給的號(hào)碼才能加入,點(diǎn)擊“沒(méi)有老師號(hào)”按鈕,自動(dòng)出現(xiàn)彈框顯示”需要輸入老師號(hào),來(lái)找到你的班級(jí),若你的老師未提供,請(qǐng)?jiān)儐?wèn)老師?!币赃@樣的設(shè)置,保證了數(shù)據(jù)的真實(shí)性和有效性。
數(shù)據(jù)體系分為三層:
1. 內(nèi)容層(Content Level):包含有知識(shí)點(diǎn)、能力、難度等標(biāo)簽,各個(gè)標(biāo)簽之間構(gòu)建依存關(guān)系繼而上匯總而成的一張知識(shí)圖譜。
2. 用戶屬性層(User Profiling Level):主要包含用戶的屬性數(shù)據(jù),如ID所屬地區(qū)、學(xué)校、教材以及用戶畫(huà)像標(biāo)簽。
3. 用戶行為層(User Behavior Level):主要是指用戶在日常使用的形成的行為數(shù)據(jù),例如同地區(qū)用戶使用的題目。
推薦策略整體上會(huì)通過(guò)多層數(shù)據(jù),更加科學(xué)推送老師和學(xué)生所需的內(nèi)容。比如說(shuō)針對(duì)知識(shí)面窄而深度能力達(dá)標(biāo)的用戶更多匹配知識(shí)面角度設(shè)計(jì)的推題,而針對(duì)知識(shí)面廣深度不夠的學(xué)生逐步從能力體系角度進(jìn)行階梯型推題。保證每道題都讓學(xué)生既保持做題的興趣,又不至于難到無(wú)從下手。此外,推送策略會(huì)同時(shí)兼顧“德才知行”四個(gè)方面進(jìn)行考量,會(huì)對(duì)素質(zhì)教育相關(guān)內(nèi)容以及提升學(xué)科核心素養(yǎng)的內(nèi)容有更強(qiáng)的側(cè)重。
引入人工智能效果如何?
至于如何能提高學(xué)生做題專(zhuān)注度和效率,羅侃打開(kāi)一起作業(yè)學(xué)生端App,一邊演示并向雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))解釋?zhuān)骸拔覀兤鋵?shí)在iOS和安卓 App里都設(shè)有訪問(wèn)限制,從和老師對(duì)接的時(shí)候,就引導(dǎo)他們讓孩子在做題時(shí)可以把這個(gè)訪問(wèn)性限制打開(kāi)。所謂訪問(wèn)性限制,就是你只能開(kāi)這幾個(gè)App,其他是鎖定的。還有一個(gè)方法是我們每次布置作業(yè),系統(tǒng)會(huì)大概率估算每一次作業(yè)的時(shí)間。比如說(shuō)這次作業(yè)10分鐘做完,如果這個(gè)孩子做了30分鐘,系統(tǒng)就認(rèn)為這個(gè)孩子是不是在偷玩什么別的,否則為什么10分鐘的題他30分鐘才做完,是不是遇到什么困難,會(huì)有措施來(lái)解決這個(gè)問(wèn)題?!?/p>
此外,為了激發(fā)學(xué)生學(xué)習(xí)的興趣,在App里設(shè)置了基于自適應(yīng)學(xué)習(xí)闖關(guān)類(lèi)產(chǎn)品,羅侃談到:“我們會(huì)根據(jù)學(xué)生的練習(xí)結(jié)果,實(shí)時(shí)計(jì)算并調(diào)整下一個(gè)關(guān)卡練習(xí)的內(nèi)容范圍以及難度。比方說(shuō)學(xué)有余力的孩子練習(xí)的關(guān)卡數(shù)量就會(huì)更少,練習(xí)的題目也會(huì)更難?!?/p>
談到這款產(chǎn)品背后的技術(shù),羅侃說(shuō):“自適應(yīng)學(xué)習(xí)其中一個(gè)非常重要的基礎(chǔ)是學(xué)生的測(cè)評(píng)結(jié)果,只有知道學(xué)生當(dāng)前掌握的情況才能給出更加精準(zhǔn)的練習(xí)內(nèi)容。目前已經(jīng)被驗(yàn)證過(guò)的模型就是 IRT 模型。2014年我們就在線上系統(tǒng)里面引入了 IRT 模型。國(guó)外很多測(cè)評(píng)公司例如GRE,都是用這個(gè)模型去做測(cè)評(píng)。這個(gè)模型能夠通過(guò)學(xué)生的做題記錄,去評(píng)估學(xué)生的能力以及題目的難度。而且整個(gè)過(guò)程是不需要人去介入,通過(guò) EM 算法實(shí)現(xiàn),這是一種無(wú)監(jiān)督學(xué)習(xí)算法。先假設(shè)學(xué)生的能力一樣,去估算題的難度,然后再通過(guò)學(xué)生做題的結(jié)果,再去估算這個(gè)學(xué)生的能力,通過(guò)若干輪的迭代逐步收斂到局部最優(yōu)解。”
“當(dāng)然在實(shí)際使用中 IRT 模型還是有一些問(wèn)題,例如它沒(méi)有考慮到學(xué)生練習(xí)過(guò)程中做題順序的影響。此外,整個(gè)過(guò)程是假設(shè)學(xué)生的能力不變的。我們?cè)?6年開(kāi)始探索基于時(shí)間序列的模型,例如 BKT 和 DKT 模型。基本上對(duì)于新的模型我們都會(huì)跟進(jìn),嘗試把這個(gè)模型應(yīng)用到我們現(xiàn)有的產(chǎn)品里?!?/p>
上圖是上海市今日中學(xué)倪佳青老師在使用一起作業(yè)后的前后對(duì)比,使用后的學(xué)生在完成率和正確率上都有明顯的提升。同樣的兩個(gè)班級(jí),使用在線作業(yè)的實(shí)驗(yàn)班完成預(yù)習(xí)作業(yè)的比例是70% ,對(duì)照班只有25% ;實(shí)驗(yàn)班課后練習(xí)的正確率是 96.7% ,對(duì)照班則是 78.6% 。倪老師發(fā)現(xiàn),這是因?yàn)榘嗬锏膶W(xué)生 98% 都是打工子弟,水平參差不齊,傳統(tǒng)作業(yè)很難做到給不同的學(xué)生布置不同的內(nèi)容,而在線作業(yè)通過(guò)對(duì)每個(gè)同學(xué)布置個(gè)性化的作業(yè),提高了學(xué)生做作業(yè)的積極性。
據(jù)介紹,在學(xué)生實(shí)際使用基于自適應(yīng)學(xué)習(xí)模型構(gòu)建的做題產(chǎn)品之后,學(xué)習(xí)成績(jī)、完成率、積極性都有所提高?!盎谖覀兊乃惴軌蚋锰嵘龑W(xué)習(xí)效果,此前收集到的數(shù)據(jù)是提升15%,目前在做更大規(guī)模的測(cè)試?!?/p>
至于公司商業(yè)模式和營(yíng)收情況,一起作業(yè)是學(xué)校教育場(chǎng)景產(chǎn)品,流量來(lái)源,屬于免費(fèi)產(chǎn)品。一起學(xué)是家庭教育場(chǎng)景產(chǎn)品,里面有幫助學(xué)生學(xué)習(xí)能力提高的付費(fèi)產(chǎn)品。據(jù)介紹,一起教育科技通過(guò)切入學(xué)校獲取了大的流量、數(shù)據(jù),商業(yè)化的做了兩個(gè),一是個(gè)性化做題,二是直播上課,這兩個(gè)模式讓小學(xué)業(yè)務(wù)已經(jīng)實(shí)現(xiàn)了盈利??傮w上來(lái)說(shuō),目前已經(jīng)做到盈虧平衡。
前段時(shí)間,有研究人士分析了365種職業(yè)在未來(lái)被人工智能“淘汰”的概率,其中,教師的被淘汰概率是0.4%??瓷先ソ處煋碛凶陨黼y以被機(jī)器簡(jiǎn)單替代的獨(dú)特性。但也有不同聲音,教育部副部長(zhǎng)杜占元認(rèn)為“人機(jī)結(jié)合可能將是我們迎接智能時(shí)代最普遍的形式?!被蒽`頓學(xué)院院長(zhǎng)安東尼·謝爾頓爵士認(rèn)為,10年之內(nèi)教師將失去其傳統(tǒng)角色,只能成為助教。給學(xué)生們教授知識(shí)這一重要的工作將完全由人工智能計(jì)算機(jī)完成。
人工智能是否可以取代教師,一起教育科技的回答是:“我們其實(shí)對(duì)一起作業(yè)的定位是公立教育的好幫手,我們從來(lái)沒(méi)有想過(guò)去取代老師,或者我們來(lái)教孩子。因?yàn)槲覀兪冀K認(rèn)為,機(jī)器在教育這一塊是無(wú)法完全取代人的。”
現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門(mén)票 3 張
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。