基于信息增益的判定树分类软件设计与实现开题报告
1. 研究目的与意义
从大型数据库挖掘信息和知识已经得到许多研究者的认可并且成为了一个关键性的研究课题。
不同领域的研究人员对数据挖掘都表现出极大的兴趣,信息里的一些新兴应用,例如建立在因特网上的数据仓库和在线服务,还要求各种数据挖掘技术,以便更好的了解用户的行为,从而改善所提供的服务并增加了商业机会,响应这样的一个需求。
而分类,可以让冗余的复杂的数据条理化,更易于人们透过数据表发现数据间的内在关系。
2. 课题关键问题和重难点
课题难点: 如何使系统更加完善,高效的运行,操作更加的便捷。难点在于如何解决用户角色之间的权限问题,控制用户权限只能够访问合法的范围;对数据库操作时,如何运用逻辑性较强的数据库语句,建立表之间较强的关联,来提高执行操作的效率。
关键问题: 信息增益也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。问题是当系统不包含t时,信息量如何计算?3. 国内外研究现状(文献综述)
1.数据挖掘,就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现,也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet信息库以及新兴的数据仓库等。
2.数据挖掘具有以下几个特点:
1)处理的数据规模十分庞大,达到gb,tb数量级,甚至更大
4. 研究方案
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
决策树构造算法:
1)初始状态是一个训练集和空树。
5. 工作计划
第一周-第四周:完成外文翻译和开题报告。
第五周:制定系统开发的概要设计和详细设计,完成数据库的表设计。
第六周:完成框架的搭建和功能接口的代码。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。