张远增 (华东师范大学教育学部,上海200062) 摘要:教育数据是人类主观建构的记载教育系统及其活动和活动结果的体系。在大数据时代,教育数据既是科学研究范式又是产品和资源。此
4006-054-001 立即咨询发布时间:2022-10-03 10:56 热度:
张远增
(华东师范大学教育学部,上海200062)
摘要:教育数据是人类主观建构的记载教育系统及其活动和活动结果的体系。在大数据时代,教育数据既是科学研究范式又是产品和资源。此研究论述了教育数据制式及其结构与内容、教育数据设计及其结构与内容,以及作为科学研究范式的教育大数据。教育数据制式由数据形态、数据限度及数据开发三个维度的规定组成。教育数据设计由分析数据需求信息、确定数据目标体系、设计数据结构、确定数据构成要素、确定数据采集方式、确定数据设计结果等前后相继的六项工作组成。教育大数据作为科学研究范式,是对已有教育研究范式的集成或折衷,是一种同时具有有限客观性和主观性的研究范式。它对教育学学术研究提出的实质性挑战是,教育学尽快建立起教育信息学和计算教育学两个分支,为促进教育实现从工业化教育到数字化教育的转型提供理论指导。
关键词:教育大数据;教育数据制式;教育数据设计;研究范式
中图分类号:G40-054文献标识码:A文章编号:1671-6124(2017)05-0057-07
科学发展表明,每个科学领域都逐步演变成两大分支:一支负责从实验中收集数据、分析数据、编码数据,形成学科信息学(X-Info);另一支负责模拟该领域的系统及其运转,形成计算学科学(Comp-X)[1]。对教育科学领域而言,它即表现为教育学分化为教育信息学(Edu-informatics)和计算教育学(ComputationalEducation)两个分支学科。其中,教育信息学是关于收集、分析和编码教育信息的理论体系;计算教育学是关于模拟教育系统及其运转的理论体系。
所谓教育大数据对教育学研究范式转换的挑战,其实质就是,它要求教育学创建出教育信息学和计算教育学用于指导教育研究与实践。如何应对这个挑战,尽快建立起教育信息学和计算教育学,已成为大数据时代教育学学术研究亟待解决的重大问题。教育数据制式化、设计,以及教育大数据作为研究范式,这些均是教育信息学和计算教育学的基本内容,厘清其概念、结构与内容,是基于教育数据创建教育信息学和计算教育学需要解决的基础性问题。然而,迄今为止,事关学科信息学和计算学科学建立之根基的数据本质研究成果却无定论,这体现在人们对数据的定义上。已有的数据定义可以划分为以下三类:
其一,描述性定义。共同点是利用对数据外延的认识定义数据。例如,将数据界定为:针对客观事物记录下来的、可鉴别的符号,包括数字、文字、音频、视频等[2-4];在科学研究、设计、生产管理及日常生活等各个领域中,用来描述事物的数字、字母、符号、图表、图形或其他模拟量,它包含所需要的信息,能进行计算、统计、传输及处理[5];描述事实的符号序列及信息载体[6];事物的符号表示,是用于表示客观事物的未经加工的原始素材[7]。
其二,形式化定义。共同点是利用对数据内涵的认识定义数据。例如,将数据界定为:浓缩的语言,最简洁的说明书,最清晰的结论,最生动的写照[8];一个有关事实的集合,用来描述事物有关方面的信息,是进一步发现知识的原材料[9];反映客观世界而记录下来的可以鉴别的数字或符号[3];进行各种统计、计算、科学研究或技术设计等所依据的数值[10];人们对客观事物或现象的定性或定量描述,广义地讲,数据就是最原始的信息[11];以数字形式反映内容的内在联贯的符号系统[12];量度和用各种方法取得的,用以概括或推断一般性结论的各种信息的总称,其中未经组织整理过的数据称为原始数据,经加工整理后的数据称为二级数据[13];表征事物现象的逻辑语言,是人类认知活动的产物,是对客观事物的主观反映,广义上讲,数据包括数、量、数据和大数据[14]。
其三,学科视野的定义。共同点是结合学科特点用“种+属差”方式界定数据。例如,统计领域将数据界定为采用某种计量尺度对现象(事件)进行计量的结果,通常指对社会现象或自然现象的某一研究总体在特定的时间、空间条件下,依据总体内个体的特征,采用一定的计量尺度所得到的结果[15];教育统计学将数据界定为随机变量的观察值,是用以反映对教育现象进行观察、测量结果所得到的数字资料[16]。
可是,即便同一学科对数据的界定也可能不同。例如,在计算机科学中,有的将数据界定为能被计算机接受和处理的各种描述事物属性的表示,包括整数、实数、字符、文字、表格、图形、图像和声音等[17];有的将数据界定为可由人工或自动化手段加以处理的数字、文字、图形、图像、声音等符号的集合,是用于描述对象、概念、状态或情况的信息基本单元,是信息的存在形式和表示形式[18];有的将数据界定为用于表示客观事物的未经加工的原始素材的符号表示,以及通过物理观察得来的事实和概念[19]。
基于已有的研究成果,本文将教育数据界定为:人类主观建构的记载教育系统及其活动和活动结果的体系。根据此界定,人类自身的发展及其所达到的水平制约教育数据的具体内容与形态,但在特定历史阶段教育数据所反映的内容是客观的,呈现的形式也是确定的。基于该界定,本文探讨教育数据制式化、教育数据设计及教育大数据作为研究范式三个问题。
一、教育数据制式化
制式化是教育数据能成为产品的关键。制式和标准的英文都是standard,意指通过提供可以持续使用的要求、规格、指南或特性,确保材料、产品、流程和服务符合它们的目的的文件,其目的是为组织或团体提供通用的思维框架并解释怎样实施这种思维(InternationalOrganizationforStandardization(ISO),2009)。具有法律效力的standard是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件[20]。在我国,制式一词由“制”与“式”合成。“制”既具有权力性、权威性、合法性、强制性的含义,引申为制度、制式、体制等,又具有制止、制裁之意,引申为通过一定的制度、体制及规则形式保障和规范合法性、合理性[21];而“式”则有榜样、模范、制度的意思[22],表现为依准则而形成模式及其基本样式。
在合成词中,制式作为语素,指统一制定的标准、规格或样式[23]。例如,按照规定标准和规格生产并列入军队装备体制的装备称为军队的制式装备[24];由制度所决定的、体现制度精神的格式化文章称为制式文章[25];特殊、有定规及限于特定场合使用的文书格式称为制式文字[21]。本文将具有权威性、强制性及统一性的教育数据必须满足的内容、规格及样式的要求称为教育数据制式;将确立教育数据制式与采用教育数据制式表示教育数据的活动及其所形成的结果称为教育数据制式化。
教育数据制式的本质是数据标准,它是为了满足判断教育数据质量、分享教育数据及规范开发教育数据的需要,优化教育数据成本,对作为产品的教育数据的起源、构成及其规格、生成的方法与技术,作出的权威性、强制性、统一性、可操作及可观测的规定。它既可以是由国家作出的制度性规定,也可以是教育领域内作出的行规性规定。教育数据制式由数据形态、数据限度及数据开发三个维度的规定组成。
一是数据形态维度。数据形态指作为产品的数据的最终呈现形态,它刻画了由固有质量、可访问性质量、语境质量及表达质量组成的数据质量标准体系,由符号、载体、包装、标志或标签等变量之可测量的明确规定组成[26]。其中,固有质量是对教育形态数据变量的可观测物理特性取值在正确性、客观性、可信性及形态稳定性方面的规定;可及性质量是对教育形态数据变量可观测物理特性的测量方法与技术参数在可及和可及安全性方面的规定;语境质量是对教育形态数据变量在特定语言环境中呈现方式及涵义在相关性、及时性、全面性方面的规定;表达质量是对教育形态数据变量呈现效果在可解释性、易理解性、简明性、一致性、可传播性方面的规定[27]。好的数据形态规定应当满足下列条件:不存在危及人身、财产安全以及公共利益的危险;符合国家的数据标准;符合其注明采用的数据标准;符合以数据产品说明、实物样品等方式标明的数据质量状况[28]
二、教育数据设计
所谓教育数据设计,是指在数据开发前根据教育数据开发目的确定教育数据实际执行的质量标准,运用教育数据生成原理确定教育数据构成要素的质量类型、规格、误差范围,以及数据结构模式及其实现途径、方式和条件,将抽象具体的教育数据构造出来的过程[29]。教育数据设计是人们主动获得教育数据的重要手段,它由分析数据需求信息、确定数据目标体系、设计数据结构、确定数据构成要素、确定数据采集方式、确定数据设计结果等前后相继的六项工作组成。
一是分析数据需求信息。界定需要教育数据者对数据的现实需要是实现其教育数据需要的首要条件[30],而分析教育数据需求信息则是解决这个问题的基础。实践中,需要教育数据者对自己需要通过数据实现自己的需要都至少有较为朴素的认识,教育数据设计的第一项工作就是收集需要教育数据者需要数据的意图,并通过对所收集意图的分析,厘清并确定教育数据需求者真实、完整的教育数据需求。
二是确定数据目标体系。即将已确定的教育数据需要等价转化为用抽象具体规定形式呈现的教育数据,包括对教育数据术语、数据格式、数据类型、数据载体及其所具有的适用性等方面作出抽象具体形式的规定。
三是设计数据结构。即将已确定的教育数据目标体系等价转化为对数据内在结构的规定,它具体包括对教育数据的构成要素,以及各构成要素发挥作用的方式与相互作用方式的规定。一般情况下,这项工作结束时需要提出两个或两个以上的教育数据内在结构方案。
四是确定数据构成要素。即基于实现已经设计的数据内在结构各种方案的需要,遵循可行性原则,对教育数据构成要素的来源、类型、性能,以及其规格、相应的技术参数作出明确规定[31],并以此作为建立教育数据之数据限度标准的基础。
五是确定数据采集方式。即确定被测对象的各种参量(可以是物理量,也可以是化学量、生物量等),通过各种传感元件做适当转换后,再经信号调理、采样、量化、编码、传输等步骤,最后送到控制器进行数据处理,保障可获取相应数据之存储平台的技术参数与规格的过程[32]。精度、速度和可操作是评估数据采集方式的核心标准[33]。
六是确定数据设计结果。即基于数据成本优化原则和最大化数据适用性原则,选定作为产品的教育数据所采用的内在结构,以及其构成要素的来源、形式、类型、性能、规格及相应的技术参数,并以此作为具体教育数据开发活动的依据和质量标准。需要指出的是,通过教育数据设计所得到的数据尽管不一定是制式教育数据,但在本质上一定是一种结构化的数据,而非大数据意义上的教育数据。例如,抽样调查(普查)形成的教育数据即为其典型形态之一。
三、作为科学研究范式的教育大数据
研究范式意义上的大数据①是大数据科学范式的简称,意指由数据驱动数据探索,以大量观察和观测数据、理论数据及计算机模拟数据为研究对象,利用计算机软件处理,依靠计算机存储,通过挖掘、提取等手段,寻求研究对象的内在规律。大数据范式理念中的数据是通过数字化手段形成的所有尺度和形状的记录,包括个人的意见及潜在的个人生活[34],主张知行合一,强调认识过程将计算用于数据[35],按不同主体阅读和理解数据[4],把非结构性的数据转变为具有特定结构的结构性数
二、教育数据设计
所谓教育数据设计,是指在数据开发前根据教育数据开发目的确定教育数据实际执行的质量标准,运用教育数据生成原理确定教育数据构成要素的质量类型、规格、误差范围,以及数据结构模式及其实现途径、方式和条件,将抽象具体的教育数据构造出来的过程[29]。教育数据设计是人们主动获得教育数据的重要手段,它由分析数据需求信息、确定数据目标体系、设计数据结构、确定数据构成要素、确定数据采集方式、确定数据设计结果等前后相继的六项工作组成。
一是分析数据需求信息。界定需要教育数据者对数据的现实需要是实现其教育数据需要的首要条件[30],而分析教育数据需求信息则是解决这个问题的基础。实践中,需要教育数据者对自己需要通过数据实现自己的需要都至少有较为朴素的认识,教育数据设计的第一项工作就是收集需要教育数据者需要数据的意图,并通过对所收集意图的分析,厘清并确定教育数据需求者真实、完整的教育数据需求。
二是确定数据目标体系。即将已确定的教育数据需要等价转化为用抽象具体规定形式呈现的教育数据,包括对教育数据术语、数据格式、数据类型、数据载体及其所具有的适用性等方面作出抽象具体形式的规定。
三是设计数据结构。即将已确定的教育数据目标体系等价转化为对数据内在结构的规定,它具体包括对教育数据的构成要素,以及各构成要素发挥作用的方式与相互作用方式的规定。一般情况下,这项工作结束时需要提出两个或两个以上的教育数据内在结构方案。
四是确定数据构成要素。即基于实现已经设计的数据内在结构各种方案的需要,遵循可行性原则,对教育数据构成要素的来源、类型、性能,以及其规格、相应的技术参数作出明确规定[31],并以此作为建立教育数据之数据限度标准的基础。
五是确定数据采集方式。即确定被测对象的各种参量(可以是物理量,也可以是化学量、生物量等),通过各种传感元件做适当转换后,再经信号调理、采样、量化、编码、传输等步骤,最后送到控制器进行数据处理,保障可获取相应数据之存储平台的技术参数与规格的过程[32]。精度、速度和可操作是评估数据采集方式的核心标准[33]。
六是确定数据设计结果。即基于数据成本优化原则和最大化数据适用性原则,选定作为产品的教育数据所采用的内在结构,以及其构成要素的来源、形式、类型、性能、规格及相应的技术参数,并以此作为具体教育数据开发活动的依据和质量标准。需要指出的是,通过教育数据设计所得到的数据尽管不一定是制式教育数据,但在本质上一定是一种结构化的数据,而非大数据意义上的教育数据。例如,抽样调查(普查)形成的教育数据即为其典型形态之一。
三、作为科学研究范式的教育大数据
研究范式意义上的大数据①是大数据科学范式的简称,意指由数据驱动数据探索,以大量观察和观测数据、理论数据及计算机模拟数据为研究对象,利用计算机软件处理,依靠计算机存储,通过挖掘、提取等手段,寻求研究对象的内在规律。大数据范式理念中的数据是通过数字化手段形成的所有尺度和形状的记录,包括个人的意见及潜在的个人生活[34],主张知行合一,强调认识过程将计算用于数据[35],按不同主体阅读和理解数据[4],把非结构性的数据转变为具有特定结构的结构性数据,使之对于特定的认识主体显得简约有序、有意义。
大数据的方法论“以数据为大”[36],其中的“大”具有全体、可扩充、有待挖掘的意思[37]。数据大的程度=数据关联复杂度×价值尺度×发掘难度[38]。大数据的认识论彰显功利目标②,主张样本与总体同一,关注事物的相关关系,分析与某事物相关的所有数据,不追求精确的因果关系数据[39]。它要求以数据驱动的观测、计算、挖掘、分析、验证作为研究方式,以数据采集、数据管理、建模与仿真、算法、信息分析及系统平台作为自己的公共构件[40]
四、结语
作为教育数据一种类型的教育大数据,它只是世界1和世界2的“镜像”,并不是真实教育世界的本身[49]。因而,不能让教育大数据压倒真实的教育世界,这应该成为运用教育大数据的基本立场。在大数据时代,教育研究的当务之急是创建教育信息学和计算教育学,促成教育大数据从研究教育的技术转变为研究教育的范式,继而推进教育研究与实践转型。实践中,教育组织形成教育大数据范式需要满足三个客观条件:其一,计算机硬件的数据处理能力和计算机算法技术胜任存储、处理和分析教育数据;其二,数据采集和问题解决技术胜任系统、完整、准确地采集数据;其三,数据兼容,形成了统一的数据平台[50]。需要指出的是,随着移动互联网的兴起,教育大数据把“以人为传感器”作为生成和采集教育数据的主要方法,采用数据活化技术恢复数据在物理世界中的关联性,采用数据可视化技术将数据呈献给数据需求者,填补技术与数据需求者之间的理解鸿沟[51]。从微观层面看,智慧校园④已能提供生成和采集学校教育数据的主要方法,使得学校数据驱动个性化的教学、提升学校教育质量成为现实[52]。但从宏观层面看,需要构建基于管理云和资源云的国家数字化教育云服务平台,才能实现智慧教育政策决策⑤,促进我国教育实现数字化教育转型。