数据仓库和数据挖掘在用户行为分析中的应用开题报告
1. 研究目的与意义(文献综述包含参考文献)
随着互联网企业规模的壮大和扩展,电子商务行业的信息系统近年来收集了海量数据,且数据正在以指数级增长,这些海量数据中包含大量和用户相关的信息。及时、精确地从这些海量信息中发现有用的知识,挖掘出这些数据背后隐含的模式,能够帮助企业决策市场战略,留住已有的用户并且吸引新的用户,帮助企业在市场竞争中取得先机。所以,如何将数据点石成金,是摆在我们面前一个现实并且诱人的问题。 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可供广泛使用,并且我们迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。 本课题主要是为满足工作中的数据分析决策需要,以国内最大的汽车票销售平台--畅途网为例,利用联机分析处理和数据挖掘技术,对数据库中有关用户行为的数据进行提取,并创建多维数据集和维度结构,建立与用户行为相适应的数据仓库,并通过对数据仓库中的信息进行分析和数据挖掘,提取有价值或者过往没有发现的信息,根据这些挖掘结果有针对性的提出一些提高用户对网站体验和改进汽车票销售量的措施。一、用户行为的定义和特点 互联网时代,网络用户俗称网民大量涌现。这个群体随着互联网的发展,行为方式逐渐形成一个概念,这就是用户行为。这个概念主要研究的是网民个体和群体的特性以及这个群体在互联网应用中的出现各种表现。由于网络用户的行为方式多种多样,因此想对其做一个明确的区分和归纳是比较困难的。在这里,我们对于用户行为做出如下定义:用户借助互联网平台而开展的有目标的行为活动。 对网络用户在互联网上的行为进行研究和分析,是现在互联网技术方面一项非常热门的研究,这项分析的手段主要是通过研究网民在网上的行为方式和行为特点,研究归纳其共性,进而形成结论。而分析的目的在于,通过研究结论,来估计网民在网络中可能发生的行为。这项研究在社会生活的方方面面都有着重要意义。 通过对大量网络用户参与的互联网事件以及其中的表现的研究,用户行为大致具有以下7项特点:(1)知识性强。网民群体一般都有一点的知识积累。尤其是在网络方面,大都可以使用常规的软件,进行上网活动。(2)隐藏性好。只要计算机就能上网,用户就可以使用匿名的方式,将资源共享到网络中。另外,由于网络的信息传播是从数据的方式进行的,因此很容易通过改变数据内容而改变信息。(3)自主性好。在多数情况下,网民的网络行为很难受到他人和组织的影响与干预,自主性较强。(4)内容丰富。只要是与网络相关的行为都可以作为分析的内容。比如使用设备,来源,当天访问某网站的次数,在某网站的持续在线时间或离线时间等。(5)特点鲜明。即使是研究相同的行为,对于不同的发生地和发生点来说,都可能出现不同的结果,因此也具有各自鲜明的特点。(6)标准不一。对于相同的行为研究,即使是在同样的地域范畴发生的,也往往会因为发生时间的不同,而呈现出不同的特性。(7)随机性与规律性。对于个体研究,其属性,特点存在较大的随机性。而对于整体的研究,用户行为往往又呈现出一定的规律。二、数据仓库和数据挖掘技术 2.1 数据仓库 数据仓库是一个面向主题的、集成的、非易失的、 随时间变化的用来支持经营管理中决策的数据集合。 数据仓库作为一个集成了许多数据源的中央数据库系统,从许多不同的联机事务处理数据源收集和提取数据,并通过一系列汇总计算将数据组织成易于分析的形式,从而为企业提供了一个信息集成平台。 2.2 数据挖掘数据挖掘从本质上说是一种新的商业信息处理技术。数据挖掘技术把人们对数据的应用,从低层次的联机查询操作, 提高到决策支持、分析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的统计分析、综合和推理, 发现数据的关联性、未来趋势以及一般性的概括知识等。数据挖掘作为一门数据处理的新兴技术,它具有的特征是处理海量数据, 并且即使这些数据是不完全的、冗余的、随机的、复杂数据结构的、维数大的, 都可以通过数据清洗来选择有用数据, 建立知识模型。 数据挖掘是多学科交叉,涉及计算机科学、统计学、数学等学科的技术。数据仓库和数据挖掘都是决策支持技术,但两者的辅助决策方式不同。数据仓库是在数据库的基础上发展起来的,它将传统数据库中的大量的、详细的,不同格式的数据按照决策需求进行集成和重新组织,从而可以为不同需求的用户提供统一的数据源,提供随机查询、综合性数据或趋势性分析等信息。而数据挖掘是通过知识的关联,挖掘现有数据中隐含的信息,给用户提供更为深入和丰富的信息,可以让用户在决策分析中使用。数据挖掘既可以用于数据仓库,也可以用于数据库。将数据仓库和数据挖掘结合起来,实现两者的优势组合,能够为用户提供更为有力的决策支持,辅助效果更为明显。 2.3数据挖掘的技术与方法数据挖掘方法是以数据库为对象,基于机器学习、科学计算、统计分析等技术,形成了数据挖掘方法和技术。一般,数据挖掘常用的技术与方法可以分为以下几个方面:(1)决策树方法决策树方法是利用信息论的原理建立决策树,主要用于分类和预测。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则比较直观,易于理解,实用效果好,影响较大,因而得到广泛应用。决策树最早的算法是Quinlan提出的ID3算法, 最流行的是其改进版的C4.5算法。(2)聚类方法聚类分析是直接分析样本, 按照各样本数据间的距离远近将样本数据分成若干个不同的类。一般,同一类中的对象相似度很高,不同类中的对象相似度很差。聚类分析属于无监督的分类方法。(3)统计分析方法统计分析方法是通过统计学中的技术方法实现数据库的数据分析,发现数据间的关系和规律。常用的方法有:回归分析、相关分析、 主成分分析等。(4)关联规则关联规则通过对给定数据集中的数据进行关联分析, 描述一个事物中某些属性频繁同时出现的条件,发现隐藏在其中的有趣的联系或规律。一旦建立起数据项间的关联规则,则其中某一项的属性值就可以依据其他属性值进行预测。(5)可视化技术可视化数据分析技术在传统图表功能基础上进行了拓展, 为用户提供交互式的数据浏览, 帮助用户更清楚地剖析数据。当所要识别的不规则事物是一系列图形而不是数字表格时,人的识别速度是最快的。 2.4 数据挖掘工具在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。
三、课题研究所涉及的参考资料[1] 刘耀宗.基于数据仓库的物流信息系统 [D]. 南京理工大学. 2004 [2 文海龙.数据仓库及其在安监决策支持系统中的应用研究 [D]. 铁道部科学研究院. 2000[3] 方红萍.数据仓库应用技术的研究与实现 [D]. 武汉科技大学. 2002[4] 翁念龙,石晓成,皮六一.多维建模数据管理方法及实现步骤[J]. 中国金融电脑. 2005(08)[5] 毛国君.数据仓库的质量管理问题和方法[J]. 计算机科学. 2003(08) [6] 崔立新,苑森淼,赵春喜.约束性相联规则发现方法及算法[J]. 计算机学报. 2000(02) [7] 欧阳为民,蔡庆生.在数据库中发现具有时态约束的关联规则[J]. 软件学报. 1999(05)[8] 李雄飞,李军编著.数据挖掘与知识发现[M]. 高等教育出版社, 2003 [9] 数据仓库与数据挖掘技术[M]. 电子工业出版社, 2002[10] 耿学华,傅德胜.可视化数据挖掘技术研究[J]. 计算机应用与软件. 2006(02) [11] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J]. 现代计算机(专业版). 2005(03)[12] 吴喜.时间序列建模与模型选择的应用研究[D]. 合肥工业大学 2006[13] Frantisek S.Predictions in Time Series using Regression Models. . 2002 [14] Michalewicz Z.Genetic algorithm data structure=evolution programs. . 1994 [3] Schoukens J,Pintelon R.Identigication of linear systems a practical guideline to accurate modeling. . 1991 [15] Users Guide.Genetic Algorithm and Direct Search Toolbox for Use with MATLAB. The Math Works . 2004 [16] KRISTINSSON K,DUMONT A.System identification and control using genetic algorithm. IEEE Transactions on Systems Man and Cybernetics . 1992 [17] Zhang P G.Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing . 2003[18] 王天宇.社交网络服务的用户群体特征分析与组织探测研究[D]. 北京交通大学 2009[19] 李大伟.数据挖掘在用户行为分析中的研究与应用[D]. 北京邮电大学 2009 [20] 刘耀庭.社交网络结构研究[D]. 浙江大学 2008
2. 研究的基本内容、问题解决措施及方案
一、本课题中需要解决的问题: 本毕设题目运用etl工具kettle对用户行为数据进行提取和转换,利用navicat对数据进行简单的预处理并建立多维数据集和维度结构,并利用r语言进行数据挖掘和数据可视化操作。
其中:用户行为包括用户进入网站到离开网站的整个过程。
本课题至少要解决以下几个部分:(1)用户进入网站,我们需要统计用户的ip地址,使用设备,操作系统,来源网站等信息。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。