相关性分析及其在特征选择中的应用研究开题报告
全文总字数:1681字
1. 研究目的与意义及国内外研究现状
互联网的迅速发展,给世界带来革命的同时,也带来了一些新的问题,那就是庞大的数据。如何处理数据,将数据转变为资源,成为当今世界迫切需要解决的问题之一。随着大数据相关技术的发展,数据挖掘成为了当今世界研究的一大热题。“冰山只露出它的一角”,对于大数据亦是如此,信息的传播速度之快以及传播的手段之多,对数据挖掘的工作提出了挑战。得益于各类数据挖掘相关的算法,我们得以对这些数据进行分析利用,然而这个过程中,有效的数据质量,优秀的分析引擎,合适的分析算法,对未来合理的预测,以及数据结果的可视化缺一不可。
数据挖掘的目的就是从现有的繁杂的,不确定的一系列数据中,通过一些特定的算法,来挖掘到一些有用的信息,并通过这些信息,了解到数据背后的关联和意义,从而判定或预测即将要发生的事情。
2. 研究的基本内容
本文主要通过研究一个较为简单的,经典的数据挖掘案例,包括数据的预处理,数据的相关性挖掘以及多种算法的使用,来探索鸢尾花数据集之中的相关性,以及特征值的选择。其中我们通过均值和方差来研究这组数据的集中和分散程度,通过相关系数计算方法来计算其相关性,去除其中的重复项造成的影响。
之后采用kmeans来对数据进行聚类分析,得出数据的分类结果,后可用贝叶斯分类器对要预测的数据做出预测。最后综合上述,多组特征数据,以及组内的多个特征值,通过决策树算法,训练决策树,使得计算机在非人工干预的情况下对数据进行分类。
3. 实施方案、进度安排及预期效果
实施方案:
本文从以下几个方面对基于该数据集的特征和相关性进行分析:(1)数据的收集(2)对数据进行相关的预处理(3)数据分析(4)建立模型(5)测试数据。
4. 参考文献
(1)周志华 《机器学习》,清华大学出版社, 2016年1月.
(2)martin odersky, lex spoon, bill venners《scala 编程》.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。