文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

决策树分类法在自考生学习行为分析中的应用

时间:2023/11/9 作者: 长江丛刊 热度: 16138
魏 萌

  ?

  决策树分类法在自考生学习行为分析中的应用

  魏 萌

  【摘 要】本文通过对考生数据的分析找出影响考生学习行为的因素,为考试管理部门提供决策依据,提高自学考试毕业率,使管理更加人性化。

  【关键词】决策树 自考 学习行为分析

一、学习行为分析方法的选择

(一)考生个人因素

  如性别、身体状况、工作和考前学历等,对应考生信息中的性别、年龄、职业、学历层次;

  (二)学习过程中的因素

  如考生考试成绩、学习方式和重修课程的门数、次数等,可以从考试信息中的报考科目、成绩等统计而来。

  分析以上因素与考生毕业情况之间的关系,可以利用数据挖掘技术中的决策树归纳分类方法来实现。决策树依赖于手头的数据,一般具有很好的准确率,其构造适合于探测式知识发现,可以处理高维数据,用一种类似于流程图的树结构形式表示,易理解,可以根据树结构总结潜在的规则,为决策者提供理论依据。

二、数据准备

将正常毕业考生与末正常毕业(即已放弃自学考试)考生进行对比分析,需要选取相应的数据记录做为决策树的训练样本集。正常毕业考生可以直接从毕业生档案库中提取,而末正常毕业考生的确定方法却不明确。由以往的经验分析,末正常毕业考生即从第一次报名开始,到现在已经超过正常毕业生学习的周期,且最近没有再报考任何课程,即判定其为放弃考试的考生。

  按照需求分析中确定的两方面影响因素,从数据仓库的成绩分析主题中提取考生个人信息的相应属性:准考证号、性别、年龄层次、职业类别和考前学历类别。而考生的学习信息要从报考和成绩数据中反映,而每个考生的报考和成绩信息有很多,为了方便数据挖掘,决定由这些信息形成综合性的数据以供分析。

  因为考生课程多次不及格对考生继续学习的信心影响很大,所以从报考数据中将每个考生的公共课和专业课分别统计出重考的次数,并合计重考课程的总次数。

三、分类决策树的实现

在SPSS Clementine的决策树分析功能中,设置因变量为考生类别,即对正常毕业考生及末正常毕业考生进行分类,选择年龄层次、性别、考前学历等做为自变量,分析以考生类别为指导的类别划分。

  通过多次实验,为避免生成的树结构过于复杂,限定树深度为6,显著性水平为0.05。最后实现的分类决策树模型图(图略)。

  同时,为验证分类决策树的可用性,在样本集中分割10%的元组做为检验集。得到决策树模型的数据预测准确率平均值有86.4%,准确率较高。

四、分类模型解释

决策树模型图中,由样本集训练和构建出的决策树模型中可以看出,CHAID算法按各属性的信息增益进行分类的情况:

  第一:节点0为考生总体样本集;

  第二:节点1-3是在样本集上按信息增益最大的属性:考前学历,分别划分出02(本科)和04(中专)、05(高中)、03(大专)和06(初中以下)三类子集;

  第三:节点4-6是在考前学历为02(本科)和04(中专)的样本子集中按其信息增益最大的属性:重考次数,又划分出了重考0次和1次、2次、2次以上三类。后面的节点依此类推。

  每个节点定义信息表中,详细列出了因变量不同值对应的样本数量和在子集中所占百分比,百分比差别越大,则分类越清晰,越便于形成有效规则。同时,我们可以发现并不是每个自变量都会进入决策树,也就是有些考生属性对于形成分类结果影响较小,或分类树层次超过规定的深度被截取。

  通过对决策树各节点的数据及路径分析,可以发现影响考生能否正常毕业的一些有用规则有:

  第一:各节点中只有一个节点分类百分比为100%,即节点21。从根节点到其的通路规则为:xl_dm=03 or xl_ dm=06 and ckcs=2 and zylb≠6 ,可以解释为学历为大专或初中及以下的在职(非学生)考生,当重考2次后就都放弃了自学考试。

  第二:从节点18可以提取规则:高中学历25岁以下的学生、待业人员和基层生产人员选择自学考试做为提高学历的方式后,95.2%会坚持学习直到毕业。

  第三:从节点6可以提取规则:学历为本科或中专的考生,如果在课程不及格时坚持学习并重考2次以上的,92.9%会坚持学习直到毕业。

  根据以上规则和决策树中其它分类情况,以及对有关结果的进一步统计,可以将考生分为3类:

  第一:高中学历25岁以下的学生、待业人员和基层生产人员是自学考试毕业生中比较稳定的人群。第二:大专或初中及以下的考生放弃自学考试的比例最大。第三:具有本科学历的考生人数占自考总人数的比率非常小,比率最大的是中专学历的考生,情况最复杂。

  以上对于决策树分类模型的分析,将为自学考试管理者提供影响考生毕业的一些因素,可以根据这些分析结果,对不同特点的考生人群提供更有针对性的帮助,或调整相关政策以更适应广大考生的需求。

  参考文献:

  [1]钱峰.国内数据挖掘工具研究综述[J].情报杂志,2008(10):11~13.

  [2]王源.改进决策树算法的应用研究[J].电子科技,2010(09):32~33.

  作者简介:魏萌(1977-),女,硕士,长江职业学院教师,讲师,研究方向:数据挖掘。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论