全国客户服务:4006-054-001 疑难解答:159-9855-7370(7X24合作/咨询),173-0411-9111/155-4267-2990(售前),座机/传真:0411-83767788,微信:543646
上一张 下一张

面面向在线智慧学习的教育数据挖掘技术研究

刘淇1陈恩红1朱天宇1黄振亚1吴润泽1苏喻2胡国平2 摘要随着教育信息化进程的深入,学生在线学习数据得到不断积累,为数据驱动的教育评估和智能辅助教学提供良好条件.然而,已有的

4006-054-001 立即咨询

面面向在线智慧学习的教育数据挖掘技术研究

发布时间:2022-10-03 10:56 热度:

面面向在线智慧学习的教育数据挖掘技术研究

  刘淇1陈恩红1朱天宇1黄振亚1吴润泽1苏喻2胡国平2

  摘要随着教育信息化进程的深入,学生在线学习数据得到不断积累,为数据驱动的教育评估和智能辅助教学提供良好条件.然而,已有的面向在线智慧学习的教育数据挖掘模型很难从海量、稀疏、高噪的数据中准确分析试题特征和学生学业水平,也较少考虑学生及教师的个性化需求.文中针对上述问题开展若干面向在线智慧学习的教育数据挖掘技术研究工作,以教育学习所涉及的试题、学生、教师为对象,以个性化推荐等技术同教育领域知识相结合为手段,以提高学生学业水平为目标.具体介绍用于试题分析和检索的试题文本表征模型、基于认知诊断的个性化学习资源推荐方法、针对教师的教学建议和指导等方法,以及这些技术所依托的应用平台———科大讯飞在线教育系统“智学网”.最后简单讨论面向在线智慧学习的教育数据挖掘技术未来可能的研究方向.

  关键词在线智慧学习,教育评估,认知诊断,推荐系统引用格式刘淇,陈恩红,朱天宇,黄振亚,吴润泽,苏喻,胡国平.面向在线智慧学习的教育数据挖掘技术研究.模式识别与人工智能,2018,31(1):77-90.

  DOI10.16451/j.cnki.issn1003-6059.201801007ResearchonEducationalDataMiningforOnlineIntelligentLearningLIUQi1,CHENEnhong1,ZHUTianyu1,HUANGZhenya1,WURunze1,SUYu2,HUGuoping2

  ABSTRACTWiththerapidinformationizationofeducation,extensivedatarecordsfromonlineeducationofstudentsareaccumulated,anditprovidesagoodopportunityforbothdata-driveneducationalassessmentandintelligenttutoring.However,existingmodelsarehardtoaccuratelyanalyzethecharacteristicsofquestionsandtheacademiclevelsofstudentsfromthemassiveandsparsedatawithhighnoise.Meanwhile,itisdifficultforthesemodelstosatisfythepersonalizedneedsofstudentsandteachers.Inthispaper,educationaldataminingstudiesontheseproblemsaresummarized.Toimprovethestudentacademiclevel,thesestudiesfocusonmodelingthreeobjectsineducation(i.e.,questions,studentsandteachers)andapplyeffectivetechniques,suchaspersonalizedrecommendationmethods,combinedwiththedomainknowledgefromeducation.Specifically,aquestiontextembeddingframeworkispresentedforquestionanalysisandquestionretrieval.Then,personalizedrecommendationmethodsonlearningresourcesareillustratedbasedonthecognitivediagnosisofstudents.Moreover,thewayofprovidingeffectiveguidanceandsuggestionsforteachersisshowed.Someoftheseresearchachievementsareappliedtotheonlineeducationalsystem“ZHIXUE”iniFlyTek.Finally,thepossibleresearchdirectionsinthefuturearediscussed.

  KeyWordsOnlineIntelligentLearning,EducationalAssessment,CognitiveDiagnosis,RecommenderSystem

  近些年,信息化进程已影响到当前社会生活的各方面,教育作为一个传统的领域,也正受到信息化的影响[1-2].随着教育信息化的持续深入以及互联网的迅猛发展,在线教育已成为计算机融合传统教育领域而形成的一个新的重要研究和应用方向.

  当前,已出现一批优秀的在线教育平台.例如大规模开放在线课堂(MassiveOpenOnlineCourse,MOOC)就是具有代表性的一类在线学习平台[3].MOOC平台借助发达的视频技术和网络技术,面向大众提供海量的网络课程,在一定程度上缓解教育资源匮乏、分配不均衡的问题.除了传统的课程材料(如课程视频、扩展阅读和问题考核),MOOC平台还提供诸如讨论论坛、学习社区等用于网络学习.除MOOC平台之外,智能辅导系统(IntelligentTutoringSystems,ITS)[4]也是广受关注的在线教育平台形式之一.ITS旨在通过不断收集反馈信息为每位学生提供个性化定制教育,并且ITS提供的个性化教育通常是在没有人工干预的情况下进行.除了MOOC平台和ITS,还有移动端数组图书馆、在线学习社区等,这些在线学习平台的兴起为学生营造一个具有海量教育资源、不限时间、不限地点的在线学习环境.

  在线教育模式的涌现受到各界关注,Coursera、edX、Udacity等发展较早,在这些成熟的国外在线教育平台的影响和激励下,催生许多国内在线教育平台,如MOOC中文网、微课网、国家教育资源公共服务平台等[5-6].与此同时,在国内还兴起如猿题库(http://www.yuantiku.com)、智学网(http://www.zhixue.com)等一些在线试题库练习平台.区别于MOOC平台提供海量的网络课程,这类在线试题库练习平台主要面向K12中小学教育,帮助学生练习、巩固课堂中学习的知识.由于目前国内的K12教育仍以学校的离线教育为主,在线教育存在一定的覆盖规模较小、使用频率较低等问题,因此部分试题库练习平台在提供在线练习的同时,也收集学生的离线学习数据(包含学生作业、考试等).此外,学习平台通过智能分析学生的答题数据,向学生、教师反映学生的个性化学习情况,并进行有针对性的试题训练,旨在帮助学生提高学业水平.

  随着这些不同类型在线教育平台的快速建设,各个平台都收集大量的课程信息、学生信息及学生学习记录.针对在线学习的数据分析和挖掘[7]逐渐成为教育数据挖掘(EducationalDataMining,EDM)的重要研究方向之一.EDM将数据挖掘的相关技术和方法应用于教育领域,对这些教育平台或线下教育产生的数据进行挖掘和分析,更好地了解学习情况,有效帮助学生进行学习等[8].2010年,KDDCup竞赛(http://www.kdd.org/kdd-cup)首次以使用学生在线答题记录预测学生学习成绩(认知能力)为任务,向全球的教育学、计算机科学的研究者发起挑战.2015年,KDDCup竞赛再次使用教育数据,此次的任务是基于清华大学学堂在线MOOC平台数据,进行学生在线学习退课预测.由此可见,面向在线学习的教育数据挖掘已成为研究者普遍关注的重要课题.目前,相关学者已研究多项针对MOOC平台和ITS的数据分析与挖掘方法[9-10].Yudelson等[11]根据课程设置、参考书目和在线检测研究学生在MOOC平台中的行为模式挖掘与激励.Chakor[12]根据学生在课程周期中的行为特征进行学生退课预测.Bruff等[13]根据学生影响力(在线论坛、讨论组、测试成绩等)的知识传播建模与引导研究知识传播问题.朱天宇等[14]和Kongsakun等[15]研究在线学习平台中的个性化信息过滤问题,如课程、论坛专家文章推荐、学生分组、学友推荐等.这些已有的研究成果可以帮助学生更便捷地使用在线教育平台中的资源.

  此外,学者们针对在线学习的试题库和学习系统书籍进行分析与挖掘.delaTorre[16]根据学生的学习情况记录进行认知诊断分析,了解学生的学习状态、知识点掌握情况和粗心程度等.Midgley[17]研究学生个性化教学与辅导,为每个学生提供个性化的试题推荐和学习策略.Lü等[18]根据在线学习平台试题库中试题依赖关系、学习顺序等构建知识图谱.Hudak等[19]研究试题内容自动标识等问题.这些工作可以更好地帮助研究人员了解学生的学习过程以及当前的学习状态,为每位学生智能定制更个性化的学习方案.

  然而,在线智慧教育领域仍存在许多问题需要进一步解决.例如,由于从在线教育平台获得的数据具有海量、稀疏、高噪等特点,因此现有的智能辅助模型很难对试题特征和学生学业水平进行准确分析[1].其次,现有模型较少考虑学生、教师的个性化需求,难以对每位学生进行个性化分析与推荐[20].为此,本文针对在线学习涉及到的试题表示、学生学习和教师教辅等,综述和讨论教育数据挖掘技术研究与应用的部分工作.

  本文研究基本框架如图1所示:1)面向试题,介绍基于试题表征的难度预测相关研究工作;2)面向学生,介绍学生认知诊断分析和学生心理建模方法等;3)面向教学,介绍面向自适应学习的个性化推荐、协同分组等的探索工作.下面详细介绍各方面的具体进展,以及部分技术的应用场景和依托的应用平台———科大讯飞在线教育系统“智学网”.

  1面向在线智慧学习的教育数据挖掘

  本节从在线学习相关的3方面入手,分别介绍教育数据挖掘在面向试题、学生、教学辅助等方面的研究工作实例,并介绍部分技术的应用场景和所依托的科大讯飞在线教育系统“智学网”.

  1.1试题分析

  试题作为教育中的一类重要的学习资源,在传统教育和在线教育中都发挥重要作用,针对试题分析的相关研究吸引许多研究人员的注意.目前,许多在线学习网站都提供在线题库供学生使用、学习[2],智学网、猿题库等学习平台更是搭建以试题练习为主的在线学习环境.因此,在线学习系统需要提供针对海量试题的收集、整理、存储,并提供试题下载或在线答题等服务.

  1.1.1试题分析研究现状

  图2为智学网中的试题样例,包含试题类型、题面、知识点等一系列的试题信息.如何有效地对试题题面、知识点及学生在试题上的答题记录等信息进行表征,并使用试题的数据表征进行试题难度预测、相似试题判定或试题知识点识别,是在线教育中面向试题研究的重要内容.本文着重介绍基于试题表征方法的难度预测研究.题号:1014XXXX143题型:解答题难度:一般日期:2016-05-13标题/来源:XXX年XXX试卷知识点:不等式和绝对值不等式[题文]已知关于x的不等式ax-1+ax-a≥1(a>0)1)当a=1时,求此不等式的解集;2)若此不等式的解集为R,求实数a的取值范围.

  图2智学网试题样例[20]Fig.2QuestionsampleofZHIXUEiniFlyTek[20]试题难度是试题的一项重要特征,测试试题难度的预估对教学的各方面都具有一定的现实意义[21].

  首先,对试题难度的准确估计和标注可以帮助系统构造更合理的试题库.其次,做好试题难度估计和标注工作可以辅助教师自动组卷,在减少人工工作量的同时,提高组卷的科学性和合理性.最后,准确的试题难度估计可以帮助在线学习系统为每个学生筛选合适的练习题

  1.2学生认知诊断

  学生是在线教育系统服务的主要对象,准确分析学生的认知水平,对帮助了解学生状态、构建适当的教学计划都具有极大的帮助[9].为此,教育心理学的研究者提出认知诊断评价(CognitiveDiagnosisAssessment,CDA),进行学生认知水平的全面分析.

  1.2.1认知诊断研究现状

  CDA是一个基于认知心理学、统计学和计算机科学的评价体系,通过对学生的答题数据进行建模分析,引入试题与知识结构的关联关系,对学生的认知状态进行诊断,定量考察学生的个体差异和认知水平[8].认知诊断理论起源于20世纪50年代,经过多年的发展,教育心理学家提出多个不同的认识诊断模型(CognitiveDiagnosisModel,CDM).根据“试题-知识点结构”的关系与“学生-知识点”的掌握类型[26],常见的CDM可以分为单维连续型模型和多维离散型模型.这里,“维度”指学生能力(试题所关联知识点、技能)的数目,“离散”、“连续”对应模型诊断得到的学生能力值是离散型(0或1)还是连续型.

  项目反映理论(ItemResponseTheory,IRT)是最常用的单维连续认知诊断模型之一[27],它假设学生对试题的作答结果服从独立同分布,并将每位学生的认知状态表示为一个单维连续的能力值,再结合试题特征(区分度、难度等)建模学生的答题情况.IRT模型的评估函数有多种形式,较常见的IRT模型的函数形式之一如下:

  P(Xij=1θj,ai,bi,ci)=ci+1-ci1+exp(-1.7ai(θj-bi)),具体地,上式通过估计学生j答对试题i的概率诊断分析学生认知能力θj,其中,ai为试题的区分度,bi为试题的难度,ci为试题的猜测度.该模型为三参数逻辑斯蒂回归IRT模型(Three-ParameterLogisticIRT,3PL-IRT).当不考虑试题猜测度ci时,模型退化为双参数逻辑斯蒂回归IRT模型(Two-ParameterLogisticIRT,2PL-IRT).若只考虑试题的区分度ai,该模型为单参数逻辑斯蒂回归IRT模型(One-ParameterLogisticIRT,1PL-IRT).根据应用场景及诊断要求的不同,这3种类型的IRT模型在教育数据挖掘领域均具有较广泛应用

  1.2.3学生游戏心理估计与诊断

  在线学习作为一种基于互联网的新型智能教学方式,在快速发展的同时也面临着许多传统的线下教育未曾遇到的问题[30-31].在面向学生的认知诊断分析任务中,就面临这一情况:学生对试题的作答受自身能力和游戏心理的共同影响.学生自身能力即为知识点掌握程度等潜在特征,而游戏心理是指通过固定的答题方法或是猜测(敷衍)回答问题.那么,能否量化学生在作答时的游戏心理?Wu等[32]提出“知识-猜测”叠加反应模型(KnowledgePlusGamingResponseModel,KPGRM),对在线学习中的学生游戏心理进行诊断和分析.图8为学生在线答题的示例,从图中的答题数据部分可以看出,学生3通过不断猜测最终选择正确答案,学生2第一次作答就选择正确答案.对于这两类不同的答题情况,KPGRM通过分析学生在多次答题(Multiple-AttemptResponses,MAR)下的显式游戏心理因子和单次答题(One-AttemptResponse,OAR)下的显式和隐式猜测因子,建模并诊断学生的游戏心理及认知情况.

  现有的研究认为,如果在线选择题的答题形式为学生只有答对当前试题才能进行下一题作答,那么学生的游戏行为主要有持续作答、系统作答和快速作答这3类[33-34].KPGRM基于这3种学生游戏行为,提出4个用于诊断显式的学生游戏心理的特征:1)在一道题上的答题尝试次数越多,对应的游戏心理因子越高(持续作答,Len);2)答题速度越快,游戏心理越强(快速作答,Spd);3)答题过渡越高(Cov),4)选择的选项对所有选项的覆盖度越大,都标志更高的游戏心理因子(系统作答,Trs).在对学生答题时的4个特征进行观测后,使用线性组合的方法对这4个特征进行组合,即可分析出学生的显式游戏心理因子.BCCADC认知诊断答题数据学生知识点掌握程度建模学生学习情况测量显示游戏心理因子推断隐式游戏心理因子KPGRM学生1学生2学生3图8KPGRM框架Fig.8KPGRMframeworkθjgjiηjij=1,2,,…Mi=1,2,,…Njiζrji1γβiυji图9KPGRM图模型[32]Fig.9GraphicalmodelofKPGRM[32]相比学生对一道试题多次作答的情况,如果学生在第一次进行猜测时就选到正确答案,则没有那么丰富的信息用于分析学生的隐式游戏心理.因此,KPGRM使用协同过滤(CollaborativeFiltering,CF)对这种隐式的学生游戏心理进行分析.具体地,KPGRM将每位学生、试题都映射到D维的空间中,使用一个向量描绘学生的潜在心理特征及对应试题的潜在特性.

  1.3教学辅助应用

  对于智慧教育的研究,是为了更好地辅导学生学习.因此,除了面向试题(试题表征)和面向学生(认知诊断),初步探索在线学习中的智能教学辅助.

  1.3.1教学辅助研究现状

  在面向在线学习的教育数据挖掘中,认知诊断方法可以帮助分析学生的学习状况[8].学生通常需要不断地进行试题练习,用于学习、巩固学习的内容,因此,在线学习面向教学的核心任务之一就是如何基于学生不同的认知状态(知识点掌握程度)向每个学生推荐适合的习题(试题).在传统的线下教学过程中,即使是对于知识点掌握程度不同的学生,通常也由教师以班级为单位进行作业、习题的布置.从图7的学生知识点掌握雷达图中可以看出,该学生在“分式化简”和“分式拆分”这两个知识点上的掌握程度区别较大,因此,每个具有不同认知状态的学生,对练习的试题需求也应当不同.伴随在线学习系统中试题库的不断扩充,传统方法不但难以对每个学生不同的学习状态进行有针对性的训练,人工筛选试题也会花费大量的时间.所以,如何自动为每个学生生成、推荐个性化试题,是在线教育领域中面临的一个重要问题

  2面向在线智慧教育的数据挖掘技术应用

  对于在线学习各方面的研究工作,最终目的是将研究成果转化为智慧教育应用,帮助在线教育系统更好地辅导学生学习.

  2.1在线自适应学习

  Brusilovsky等[39]提出自适应学习的概念后,得到国内外研究人员的重视.自适应学习通常指为学生提供学习环境、实例或平台,通过分析学生的学习过程,发现并总结理论,用于学生自主解决问题的学习形式.自适应学习可以看作个性化教育的一种实际应用,目前,已有在线学习网站向学生提供自适应学习的解决方案以满足每个学生不断变化的学习需求.“智学网”作为场景覆盖较广、智能化较高的学生答题数据采集、分析、应用平台之一,全程跟踪学生的学习过程,为每位学生打造个性化学习路径,促进学生的个性化学习,提高学业水平.当前的自适应学习系统要求及时诊断学生的学习状态,根据每位学生的不同状态生成个性化学习内容,保证学习的高效性和合理性3结束语随着信息技术的发展和网络的普及,一方面,各种在线教育平台层出不穷,积累海量的教育资源以及教学数据,产生许多的智慧学习应用需求(如自适应学习等).另一方面,在线教育的持续发展为面向智慧教育的数据挖掘技术研究提供良好的契机和条件,越来越丰富、高质量的教育数据让教育心理学、认知心理学等和计算机科学更紧密结合,从而设计更有效的模型、方法和应用系统.在此背景下,本文综述针对在线教育中面向试题(教学资源)、面向学生和面向教学3个方面进行若干教育数据挖掘技术的研究探索工作.可以预测,随着在线学习的不断发展和完善,该领域内的数据挖掘基础研究与应用工作仍将在诸多方面不断产生技术革新[20].

  1)学生的多维认知因素建模.众所周知,学生的学习过程受到诸多因素的共同影响,如“猜测”、“粗心”等教育心理学中已经发现的因素.通过数据挖掘技术对学生学习中出现的众多不确定因素进行准确的建模,突破传统认知诊断技术基于小样本或单因素分析的局限性,可以更好地帮助在线教育系统、授课教师了解学生的学习状态,帮助提高学生的学业水平.

  2)跨学科的知识迁移学习分析.当前数据挖掘中针对学生认知诊断的工作通常围绕某一门独立学科的学生答题数据展开.然而,学生所学的不同学科(如数学、物理等)之间并不完全独立,相互之间可能存在知识转移现象.因此,利用迁移学习等数据挖掘方法寻找学生在不同学科的学习中共有的模式、知识结构,对于全面了解学生的学习状态具有重要意义.

  3)在线学习与离线教育的融合.纵然面向在线学习的教育数据挖掘研究与应用具有良好的前景和预期,但是为学生的日常学习、教师的课堂教学进行辅助服务也应当是在线学习平台的根本目标之一.因此,针对中小学的在线教育平台当前应以辅助传统的离线(课堂)教育为主,不能完全取而代之.所以,面向中小学的在线学习研究与应用的关注点除本文提到的面向试题、面向学生和面向教学辅助等内容,如何实现在线教育和离线教育的有效融合,也是一个重要的研究方向.

  除此之外,相关研究人员应当关注在线学习和离线辅助教育效果的衡量标准选择问题,如考虑到仅利用学生的成绩进行学业水平的衡量过于片面,学者们引入认知诊断的分析方法.但是,由于学生的知识点掌握水平属性仍存在一定的隐蔽性[41]等原因,如何综合多方面的因素,综合衡量学生的学习状态仍是需要关注、研究的问题

  参考文献

  [1]傅钢善.教育技术发展轨迹探讨.电化教育研究,2005(9):22-2(FUGS.ExplorationofEducationalTechnologyDevelopmente-EducationResearch,2005(9):22-26.)

  [2]HONGCM,CHENCM,CHANGMH,etal.IntelligentWebBasedTutoringSystemwithPersonalizedLearningPathGuidance.Computers&Education,2008,51(2):787-814.

  [3]BRESLOWL,PRITCHARDDE,DEBOERJ,etal.StudyinLearningintheWorldwideClassroomResearchintoedX′sFirstMOOC.Research&PracticeinAssessment,2013,8:13-25.

  [4]POLSONMC.FoundationsofIntelligentTutoringSystems.Hove,UK:PsychologyPress,2013.

  [5]陈池,王宇鹏,李超,等.面向在线教育领域的大数据研究及应用.计算机研究与发展,2014,51(S1):67-74.(CHENC,WANGYP,LIC,etal.TheResearchandApplicationofBigDataintheFieldofOnlineEducation.JournalofComputerResearchandDevelopment,2014,51(S1):67-74.)

  [6]管佳,李奇涛.中国在线教育发展现状,趋势及经验借鉴.中电化教育,2014(8):62-66.(GUANJ,LIQT.China′sOnlineEducationCurrentSituation,TrendandExperienceforReference.ChineseJournalofComputers,2014(8):62-66.



面面向在线智慧学习的教育数据挖掘技术研究


SCI学术指导


面面向在线智慧学习的教育数据挖掘技术研究
公司地址:大连市高新园区黄浦路科技创业大厦19层 运营中心:大连市沙河口区金盾路127号 研发中心:大连市西岗区大工西岗科创产业园10层 邮政编码:116029
全国客户服务热线:4006-054-001 微信咨询:543646 业务咨询、合作:159-9855-7370(同微信) / 173-0411-9111 电子邮件:Djy@Jiqunzhihui.com
集群智慧®为我公司注册商标,在商标国际分类第1、7、9、11、20、30、35、36、37、38、40、41、42、44、45类用途中受法律保护,侵权必究。侵权删除:2544906@QQ.com
本企业已通过ISO9001国际质量管理体系认证、ISO45001职业健康安全管理体系认证、ISO14001环境管理体系认证、企业信用等级AAA级认证、科技型中小企业认证、高新技术企业认证。
本站部分服务由本平台认可的第三方服务机构提供,如服务的质量有任何问题,请第一时间向我平台反馈,我们将及时为您解决,平台保障用户的全部权益不受任何损害。
请认准本站网址(www.jiqunzhihui.org.cn),推荐百度搜索“集群智慧云科服”直达本站。
版权所有:大连集群智慧科技服务有限公司 ICP备案:辽ICP备2021010330号-3 增值电信业务经营许可EDI证:辽B2-20230179 D-U-N-S邓白氏全球编码:620550735 手机版