面向医学数据的年龄数据清洗与可视化开题报告
1. 研究目的与意义
随着互联网以及物联网的飞速发展,社交网络和智能手机的大量普及,使全球进入了大数据时代。
在健康医疗领域,各种医疗卫生信息系统记录和保存了巨大的医疗健康服务业务数据,但由于信息标准、信息录入等原因,产生了大量的脏数据,这些数据是不可用的,给医学年龄数据信息关联和挖掘分析造成了障碍。
因此必须对脏数据进行清洗,清除垃圾数据,提高数据的质量,以便通过大数据挖掘和分析真正体现数据的价值。
2. 国内外研究现状分析
数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这 3个领域研究较多。
在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。
国外对数据清洗的研究最早出现在美国,是从对全 美的社会保险号错误的纠正开始 。
3. 研究的基本内容与计划
1. 研究内容: I) 下载数据集,导入数据库 II)数据缺失值,异常值处理 III) 重复记录清洗 IV)数据可视化2. 需要掌握的技术 ▲python编程语言 ▲pandas框架▲pyecharts框架3. 研究计划 第1-2周:查阅资料,撰写开题报告和文献综述 第3-4周:大量阅读有关医学数据的年龄数据清洗与可视化的论文 第5-8周:设计合理的程序构架,运用较优的算法,完成软件内部代码;准确实现软件编码,完成既定的功能,各部分测试通过;第9-14周:完成毕业论文,准备毕业答辩
4. 研究创新点
1. 将faers数据库中的医学年龄数据充分利用起来,实现其价值。
2. 数据量大,批量处理数据3. 采用统一的计量单位处理医学年龄数据4. 使用python的第三方库实现数据可视化
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。