【文章摘要】 本文详细论述了 C4.5 算法的原理及计算过程,并运用C4.5算法对某高校2011级电子信息工程专业的学生成绩数据进行分析。首先确定数据挖掘对象,进行样本采集,选择影响成绩的重要属性;然后运用C4.5算法对成绩数据进行分析挖掘从而生成决策树,为今后的教学工作提供指导,以此提高学生的成绩。 【关键词】 C4.5算法 ; 决策树 ; 学生成绩 0 引言 现今高校中,学生人数逐年增多,学生成绩信息也日益复杂,学生信息的管理对于学校而言也越来越重要。传统的学生成绩管理系统仅仅停留在对于已获得的数据进行一些表层的处理(如查询、统计等),并未能通过数据之间潜在的联系找到有价值的信息,因此将数据挖掘技术应用到学生成绩管理中,是当今高校教学管理的发展趋势。 本文着重研究数据挖掘技术中的决策树算法,决策树算的经典算法有ID3,C4.5,CLS,CART 等。其中,C4.5 算法是基于ID3的一个改进算法,它不仅继承了ID3算法的优点,而且拥有自身的特点和优势,2006 年 12 月,C4.5 算法被评为数据挖掘领域的十大经典算法中排名第一。如今,C4.5算法已经广泛应用于医疗、建筑、金融等行业。在文中,笔者主要对C4.5算法的理论进行深入地研究和分析,并将C4.5算法应用在高校学生成绩分析中,给出分析结果。 1 决策树及其 C4.5 算法 1.1 决策树的概述 决策树是一种十分常用的分类方法,采用自顶向下的递归方式,将杂乱无章的数据整理成一种有规则的树结构。其中每个内部结点表示一个属性测试,每个分支表示对一个测试输出,每个叶节点则是变量值相应对的数据集合空间的子集。所以,决策树是一棵从根到结点一条路径对应着一套规则的分类树。 1.2 C4.5 算法 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。假设有一个训练集 D,A 是有 S 个不同取值离散属性,划分为S1,S2,……,Sn 共n个子集,有m个类别,将这些类别设置为 {C1,C2,……,Cm}。 由ID算法,我们已经熟知信息的计算公式,在此不再重复。同时,由信息熵我们可以得到一组信息增益为:Gain(A)=info(D)infoA(D) ;则信息增益率为 :GainRatio= ;其中,SplitE(A) 是一个用来考虑分裂信息的度量,分裂信息用于衡量属性分裂数据的广度和均匀程度,其计算公式为 :SplitE(A)= ; 其中,v是属性集合A中的某个属性的全部取值。 C4.5算法是计算每个属性的信息增益率,然后从中选择集合D的信息增益率的最高的属性,以作为一个节点,并作为标记属性,再对该节点进行分裂。如此反复地递归地生成树。 2 学生成绩的数据挖掘 2.1 数据准备 学生的基本情况,包括学号、姓名、性别、专业等,可从教务处获得学生的学习情况,包括基础知识掌握程度、上机时间等,可设计一张调查表对学生进行问卷调查获得学生的成绩情况,包括学号、姓名、性别、专业、课程名称、成绩等,可从教务处获得。 2.2 数据预处理 此过程一般要经过数据集成、清理、转换、归约这四个步骤。为了建立决策树模型,本例中选择性别、基础知识掌握程度、上机时间这三个与成绩相关性较大的属性作为建立决策树模型的依据。本例中收集了2011级电子信息工程专业的320条学生成绩信息来建立决策树模型,其中三分之二数据作为训练集,三分之一数据作为测试集。其中,基础知识掌握程度分为:不好、一般、好;一周上机时间经过离散化处理后分为:少于2小时为<2,2到4小时位2—4,多于4小时为>4;分类属性为:成绩<60的为不及格,成绩 60—80 的为良好,成绩 >80 的为优秀。 2.3 构建决策树的计算过程 以学生成绩的不及格、良好以及优秀为例说明构造决策树的计算过程 : 首先,计算成绩为不及格、良好、优秀的分类所需的信息熵的值为1.1101582067719973。然后以“基础知识掌握程度”决策属性为例,按照以上公式可计算它为“好、一般、不好”这三个类别时的信息熵分别为:0.11023523512325469、3342393443232003、0.26626684897980446。 按照属性基础知识掌握程度划分S后样本子集的信息熵为0.7107414284262594。 信息增益值Gain(基础知识掌握程度 ) 的 值 为 0.39941677834573786。分裂信息SplitE(基础知识掌握程度)的值为 1.2686583529964333。则基础知识掌握程度属性列的信息增益率的值为0.31483399561620257。同理,可得出决策属性为上机时间信息增益率和性别的信息增益率分别为0.38135113259381354、0.016149189936541544。 通过比较,我们可以发现信息增益率最大的是“上机时间”决策属性,所以我们应该把“上机时间”决策属性作为根节点,按照以上计算方法,依据比较信息增益率的大小,再对每个分支的节点属性进行确定。 2.4 决策树规则提取 由以上计算过程,我们可以得到一个完整的决策树,但为了消除噪声数据和异常点,我们对决策树采取剪枝策略。剪枝后生成的决策树可以直接从中提取决策规则。 3 总结 通过对模型的测试,我们发现绝大多数情况与实际情况是相符合的,并且准确率超过了预定的阂值,因此,该决策树模型能够满足用户的需求。 C4.5 算法是一个十分经典的决策树算法,虽然属性信息增益率计算量大,花的时间多,但产生的分类规则易于理解,准确率高,并在系统应用中取得了良好的效果,为下一步教学工作提供有力的指导,从而提高教学质量。 【参考文献】 [1]任承业,罗伟其。校园信息系统中CRM与数据挖掘的结合和应用[J].计算机工程与应用 .2003,7(13):230-232 [2]齐晓峰.数据挖掘技术在学生成绩管理中的应用研究[D].辽宁工程技术大学 ,2006. [3] 李楠,等 . 决策树 C4.5 算法在数据挖掘中的分析及其应用[J].计算机与现代化 ,2008(12):160-163 [4]胡可云,田凤占,黄厚宽.数据挖掘理论与应用 [M]. 第一版 .2008年 :18-23 |