您现在的位置:网站首页答辩论文计算机毕业设计计算机论文计算机应用论文

[计算机软件] 一种关联规则数据挖掘算法的设计与实现

  • 简介: 原文 随着Internet技术的飞速发展,网络规模和用户数量都不断的膨胀。Internet以其多媒体的传输及良好的交互性已经成为人们日常信息发布,娱乐和交流的一种重要手段。在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,被广泛应用在经济...
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
  原文

随着Internet技术的飞速发展,网络规模和用户数量都不断的膨胀。Internet以其多媒体的传输及良好的交互性已经成为人们日常信息发布,娱乐和交流的一种重要手段。在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,被广泛应用在经济、政治、教育科研、医疗等各个领域。
  但是,它在给人们带来丰富的信息和极大便利的同时,也随之产生了一些亟待解决的问题。提供个性化的信息服务和构建智能化Web站点便是其中之一。分析和处理站点的日志数据可以提供有效的知识用于实现这些功能。然而对于一个热门的网站,其Web日志数据以每天几十兆的速度增长,人工分析和处理这些日志数据是不可能的。
  将传统的数据挖掘技术应用于Web服务器日志的挖掘,可以自动的从用户在Web站点上浏览行为的日志中提取用户的访问模式,如频繁访问路径、频繁访问页面、用户聚类等。这些知识有助于网站设计者优化站点拓扑结构,提供个性化、智能化服务以及提高网站的性能。
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
计算机技术的另一领域一一人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。
......


  目录

目 录
第一章. 绪论
第二章. 关联规则及相关基本知识
第三章. 频繁项目集生成算法的设计
第四章. 算法实现
第五章.结束语
第六章. 致谢
附录
参考文献


  简单介绍

摘要:Internet 的迅速发展,使得 world wide web已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战. 因此,如何使用户快速便捷的获取、处理、利用万维网上的数据成为人类必须解决的问题。
在基于关联规则的数据库挖掘技术中,制约数据挖掘效率的关键问题是频繁项目集的计算问题(Frequent Itemset Counting, FIC)。当事务数据库和所包含的项目的数量很大时,频繁项集的数目也会变的非常大,导致频繁项集计数问题所花费的时间代价很高。Apriori算法采用递推方法产生频繁项目集,是解决FIC问题的有效的算法之一,但Apriori在计算侯选项集的支持率方面仍然存在一些效率问题。
本文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提高了关联规则数据挖掘的效率。主要包括:首先,对关联规则数据挖掘算法研究进行了回顾, 简要讨论了经典算法及其优化算法的特点,分析了经典算法的不足。第二, 设计一种新的频繁项目集生成算法TPPC,对侯选项集数据存储结构和侯选项集支持度计算方法进行了研究改进。TPPC主要采用了事务数据集、侯选项集的三次剪枝和侯选项集的分区搜索计算技术。TPPC首先利用Apriori性质进行侯选项集的剪枝。其次在各轮迭代中采用两个层次的事务数据集剪枝-K和K+1剪枝。

关键词:数据挖掘,关联规则,算法,设计实现

查看评论 已有0位网友发表了看法
  • 验证码: