噪声数据平滑系统设计与实现开题报告
1. 研究目的与意义
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
数据预处理是数据挖掘与分析的重要基础,在大数据分析处理日益彰显其价值的今天,数据预处理显得更加重要。噪声数据的存在一直是数据预处理需要解决的一个主要问题。考虑设计实现噪声数据平滑系统,实现对所选定关系表中噪声数据的自动处理。
2. 课题关键问题和重难点
本课题的关键问题在于如何利用等深、等宽、简单聚类分析技术对所选择关系表,用户可以选择三种平滑方法中的某一种,对其进行噪声数据平滑处理。利用不同的技术从大量的数据中找去不完整,不一致的脏数据对其进行任意的平滑处理并把处理好的数据重新分类。还要了解等深、等宽、简单聚类的使用方法及聚类分析的几种算法完成软件设计。
本课题最大的难点也是掌握聚类分析技术,如何利用聚类算法来挖掘处理数据中隐藏的不完整,不一致的脏数据。而且聚类分析通常不能独自解决问题,它需要与其他技术一起利用才可以使分析更加透彻,挖掘更加彻底。而且随着社会的进步,信息量大,数据量大,所以数据库中的数据量特别大,聚类分析无法很准确的一次性分析出来,需要我们反复的进行运算,反复的去完善数据。同时涉及太多类型的数据,聚类分析中的高维聚类分析也是其中的难点,所以必须好好查阅国内外的文献资料了解聚类分析,从而来更好的进行数据处理。
3. 国内外研究现状(文献综述)
现实世界的数据一般是脏的、不完整的和不一致的这些数据使得对数据的应用如数据挖掘等陷入混乱,导致不靠的输出。数据清洗(dataclean)试通过填写空缺值,平滑噪声数据,识别、矫正/删除孤点,并解决不一致来提高数据质量、数据清洗的重要性是不言而喻的。
噪声数据的处理是数据清洗的一个重要环节。在对含有噪声数据进行清洗的过程中,现有的方法通常是找到这些孤立于其他数据的记录并删除掉,其缺点是事实上通常只有一个属性上的数据需要删除或修正,将整条记录删除将丢失大量有用的、干净的信息。在数据仓库技术中,通常数据清洗过程应用在数据仓库之前,其目的是提高数据的质量,使后继的联机处理分析(olap)和数据挖掘应用得到尽可能正确的结果。然而,这个过程也可以反过来,即利用数据挖掘的一些技术来进行数据清洗,提高数据质量。
相对于同类算法,一个基于聚类分析的在属性级别上处理噪声数据的算法,该方法的优点有:
4. 研究方案
1、工作内容:
了解数据挖掘处理的基本算法及方法,能进行数据挖掘,数据处理,数据整合。
2、设计步骤:
5. 工作计划
1-3周:完成开题报告,外文翻译
4-8周:完成软件原型
9-12周:完善软件功能
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。