摘要:Internet 的迅速发展,使得 world wide web已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战. 因此,如何使用户快速便捷的获取、处理、利用万维网上的数据成为人类必须解决的问题。 在基于关联规则的数据库挖掘技术中,制约数据挖掘效率的关键问题是频繁项目集的计算问题(Frequent Itemset Counting, FIC)。当事务数据库和所包含的项目的数量很大时,频繁项集的数目也会变的非常大,导致频繁项集计数问题所花费的时间代价很高。Apriori算法采用递推方法产生频繁项目集,是解决FIC问题的有效的算法之一,但Apriori在计算侯选项集的支持率方面仍然存在一些效率问题。 本文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提高了关联规则数据挖掘的效率。主要包括:首先,对关联规则数据挖掘算法研究进行了回顾, 简要讨论了经典算法及其优化算法的特点,分析了经典算法的不足。第二, 设计一种新的频繁项目集生成算法TPPC,对侯选项集数据存储结构和侯选项集支持度计算方法进行了研究改进。TPPC主要采用了事务数据集、侯选项集的三次剪枝和侯选项集的分区搜索计算技术。TPPC首先利用Apriori性质进行侯选项集的剪枝。其次在各轮迭代中采用两个层次的事务数据集剪枝-K和K+1剪枝。
关键词:数据挖掘,关联规则,算法,设计实现
|