数据挖掘的理论方法及应用_电子论文

(毕业论文 38页 18583字) 摘要：该论文介绍了数据挖掘有关理论，数据挖掘技术、软件、数据挖掘有关语言分类探讨，国内外的研究现状、进展与应用成果。在此基础上，介绍了数据挖掘的实现流程和主要步骤方法，并对其中的聚类算法演示了应用实例。

关键词：数据挖掘查询语言建模语言 XML

Study of Data Mining Language
Zhicong Lv
(Dept. of Computer and Information Science, Southwest Forestry College, Kunming, Yunan, 650224, China)

Abstract: The article introduces some research work about some kinds of data mining languages and standardization, presents a kind of classification of data mining language. Then the article states structure and compose of the data mining languages. On this basis, this paper carries on the discussion and research to the data structure and composition of mining language, and introduces the procedure the data mining and key step. At last, listing the algorithm the data mining, this paper gathers and fulfils concrete application to a kind of algorithm among them.
Key Words: Data mining Query language Modeling language XML

目录
引言 1
1 数据挖掘方法 2
2 数据挖掘软件功能的分类 3
3 数据挖掘语言的分类 6
3.1 数据挖掘查询语言 7
3.2 数据挖掘建模语言 9
3.3 通用数据挖掘语言 10
3.3.1 数据挖掘模型（Data Mining Model,DMM） 11
3.3.2 预言联接操作（Predication Join Operation） 11
3.3.3 OLE DB for DM模式行集合（Schema Rowsets） 11
4 数据挖掘的流程 12
5 数据挖掘算法 12
5.1 算法实现： 17
5.2 算法运行的一个实例： 25
6 分析与评价 27
7 数据挖掘应用现状[ 27
8 总结 31
参考文献 33
致谢 34

引言
什么是数据挖掘？数据挖掘又有什么用呢？举一个例子来说明：在美国或世界其他国家，超市的管理者常津津乐道“啤酒搭着尿布卖”这样一个故事。啤酒？尿布？风马牛不相及的两件物品，能有什么样的联系呢？沃尔玛利用自动数据挖掘工具对数据仓库中各个商店一年多的详细原始数据进行分析和挖掘，一次分析之后惊奇的发现：跟尿布一起购买的最多的商品竟是啤酒！经过市场调查，真相大白：原来美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买完尿布后又随手带回两瓶啤酒。既然尿布与啤酒一起购买的机会最多，沃尔玛就在它的各个商店里将它们并排摆放，结果是尿布与啤酒的销售量双双增长。这个故事仅仅是沃尔玛借助数据挖掘受益的一连串成功故事的一个花絮而已[3]。
数据挖掘到底是什么？数据挖掘，顾名思义就是从大量的数据中挖掘出有用的信息。从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着计算机应用的越来越广泛，每年都要积累大量的数据，运用数据挖掘技术在这些数据当中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则”，“时间序列”、“聚集”，“分类”，“估值”等这几类[8]。
据国外专家预测，在今后的5——10年内，随着数据量的日益积累以及计算机的广泛应用，数据挖掘将在中国形成一个产业。2000年7月IDC发布了关于信息存取工具市场的报告，其中估计1999年的数据挖掘的市场大概是7.5亿美元，估计在下个5年内市场的年增长率（Compound Annual Growth Rate）为32.4%，其中亚太地区为26.6%，并且预测此市场在2002年时会达到22亿美元[4]。
随着网络技术的发展和计算机使用的日益广泛，电子化数据越来越多，人们正面临“数据丰富而知识贫乏”的问题。八十年代末兴起的数据挖掘（data mining）技术或数据库中的知识发现（knowledge discovery in database,KDD）技术为解决此问题开辟了一条道路。数据挖掘是在大量的数据中发现潜在的、有价值的模式和数据间关系（知识）的过程。经过十多年的工作，数据挖掘技术的研究与应用已取得了很大的成果，然而，我们还面临着许多问题：
（1）各种数据挖掘问题及挖掘方法基于不同的模型和技术，彼此互相孤立，联系很少；
（2）缺少简明精确的问题描述方法，挖掘的语义通常是由实现方法决定的；
（3）数据挖掘系统仅提供孤立的知识发现功能，难于嵌入大型应用；
（4）数据挖掘引擎与数据库系统是松散耦合，T.Imielinski 和 H.Mannila 称其为"文件挖掘(file mining)系统"，它没有提供应用独立的操作原语。
到目前为止，数据挖掘行业是高度分散的，公司和研究机构独立开发各自的数据挖掘系统和平台，没有形成开放性的标准；同时数据挖掘本身是一门多学科综合跨度非常大的技术，这两点是上述问题存在的根本原因。近年来数据挖掘语言的研究为解决上列问题，提出一个新的研究方向[5]。
1 数据挖掘方法
作为一门处理数据的新兴技术，数据挖掘有许多的新特征。首先，数据挖掘面对的是海量的数据，这也是数据挖掘产生的原因。其次，数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，维数大。最后，数据挖掘是许多学科的交叉，运用了统计学，计算机，数学等学科的技术。以下是常见和应用最广泛的算法和模型[1]：
（1）传统统计方法：抽样技术：我们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。多元统计分析：因子分析，聚类分析等。统计预测方法，如回归分析，时间序列分析等；
（2）可视化技术：用图表等方式把数据特征用直观地表述出来，如直方图等，这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化；
（3）决策树：利用一系列规则划分，建立树状图，可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等；
（4）神经网络：模拟人的神经元功能，经过输入层，隐藏层，输出层等，对数据进行调整，计算，最后得到结果，用于分类和回归[2]；
（5）遗传算法：基于自然进化理论，模拟基因联合、突变、选择等过程的一种优化技术；
（6）关联规则挖掘算法：关联规则是描述数据之间存在关系的规则，形式为“A1A2…An=>B1B2…Bn”。一般分为两个步骤：求出大数据项集。用大数据项集产生关联规则[6][9][10]。
除了上述的常用方法外，还有粗集方法，模糊集合方法，Bayesian Belief Netords ,最邻近算法（k-nearest neighbors method(kNN)）等。

数据挖掘的理论方法及应用

栏目导航

热门关键词

最新论文

随机论文