GreenPlum并行查询优化策略的研究与应用开题报告
1. 研究目的与意义(文献综述)
在当今的商务环境中,所有重要的组织运营都离不开数据业务。每个用户的每次点击、来电或者交易,抑或其它商业活动都会产生数据,这些数据对汇集企业业务知识大有裨益。企业可以通过这些数据获得洞察力,从而更好地了解其客户、发现问题、提高运营水平、降低风险、或者创造商务价值。企业如果希望有能力实施和普及多种商务战略,就必须详尽无余地存储和分析数据。加之考虑到数据保留期越来越长(5-7年或更长),也就不难理解为什么数据量会每年增加1.5到2.5倍。除了数据规模的急剧增加外,企业借助数据进行商务分析的深度和复杂度也只会有增无减。 当今的数据仓库解决方案通常是借助通用数据库(比如oracle)或基于硬件的专用平台(比如teradata、netezza)而创建的,而这两种方案都不能从根本上解决当今(以及未来)数据驱动型社会所面临的挑战。
通用数据库(比如oracle)是针对oltp处理功能设计的,在运行大量小规模交易查询数据时效果最好。从结构上来说,他们采用了“完全共享”或“磁盘共享”体系(图1)。“完全共享”体系局限于单一服务器(通常是价格比较昂贵的smp服务器),其扩展性和性能受到相应的限制。“磁盘共享”体系(比如oracle rac)允许系统带有多个服务器,这些服务器与san或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有i/o信息过滤到昂贵的共享磁盘子系统。(请注意在“完全不共享”体系中,对每个使用直接相连磁盘的节点来说,其i/o带宽都近似等于通往共享磁盘子系统的数据管道)。实践证明:这些通用磁盘共享体系复杂、脆弱,在处理万亿字节数据时难以胜任。
在“完全不共享”体系下,在主机上规划查询项目,并将其分成若干部分在集群上并行执行,所有通讯功能都在一个高宽带网络互连体系上实现。这种体系的一个重要优势就是每个节点都有一个通往本地磁盘的独立高速通道,从而简化了体系,并提供扩展性很好的并行扫描和查询处理功能。 而teradata、netezza是基于硬件的 “完全不共享”体系,它们需要价格昂贵的专用硬件,从而显著增加了采购和总体拥有成本。
2. 研究的基本内容与方案
基本内容以及目标:
(1)调研和查阅相关文献,了解greenplum的发展现状,学习greenplum的相关理论;
(2)分析及说明greenplum并行查询方案,分析其核心实现算法及流程;
3. 研究计划与安排
第一阶段(第1周—第3周):进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;
第二阶段(第4周—第10周):配置电脑,搭建电脑运行环境,初步设计算法或系统设计,分析、比较或实现等;
第三阶段(第11周—第14周):撰写论文初稿;修改论文,定稿并提交论文评审;
4. 参考文献(12篇以上)
docproperty po_document \* mergeformat [1] 肖静静,李双勇,彭智勇.用多线程方式优化postgresql的查询处理.计算机科学2003 vol.30 no.10
[2]李川著. 分布式数据库查询策略优化的研究. 西安电子科技大学计算机应用科学技术硕士学位论文, 2012.
[3]王田.mpp架构下的分布式sql执行计划生成系统的设计与实现.哈尔滨工业大学软件学院工程硕士学位论文 2014.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。