您现在的位置:网站首页答辩论文工学论文信息化工程论文

信息挖掘的智能搜索技术研究

  • 简介:(论文 页数:25 字数:16575)1 引言 Web上的数据正以每天新增一百万个页面的速度增长,页面数目已超过10亿[16]。Web已经成为人们获取信息的重要手段。如何在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘和知...
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载

(论文 页数:25 字数:16575)1 引言
Web上的数据正以每天新增一百万个页面的速度增长,页面数目已超过10亿[16]。Web已经成为人们获取信息的重要手段。如何在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘和知识管理等研究领域的重要课题。
搜索引擎为人们提供了检索Web上相关信息的方法,搜索引擎对Web上的文档进行索引并进行分类,为人们提供一个Web内容的层次化的目录结构;有的搜索引擎对Web上的页面进行全文索引,提供基于关键词的检索。搜索引擎一般由Crawler、分析器、索引器、索引数据库、检索器和用户接口组成[80]。Crawler以广度优先或深度优先的方法从Web上下载页面;分析器对下载页面的内容进行分析以用于索引,具体包括分词、过滤、转换等工作;索引器将文档表示为一种便于检索的方式并存储在索引数据库中,一般采用的方法有矢量空间模型(Vector Space Model)、倒排文档、概率模型等;检索器实现用户查询关键词和目标文档匹配度的计算,根据计算结果所有符合查询要求的页面URL按照相关度递减的顺序排列,并返回给用户;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。
目前的基于传统信息检索(Information Retrieval,IR)方法的搜索引擎大部分使用的是基于文档内容的词频统计,即TFIDF方法的索引方式。这种基于文档关键词的检索手段随着Web上数据量的迅速增加而越来不适应人们的要求,它的主要缺陷有:
 信息过量,返回太多的无关内容。若干个关键词构成的查询组合可能返回上万个相关页面链接,很多检索结果和用户查询毫无关系。

 

目 录

1 引言 2
2半结构化数据和文档 3
2.1 半结构化数据基本理论 3
2.2 模式的描述形式 4
2.2.1 基于逻辑的描述形式 4
2.2.2 基于图的描述形式 5
2.3 Web查询语言现状 5
2.3.1 第一代查询语言 5
2.3.2 第二代查询语言 5
2.4 Web查询语言评价因素 5
3 Web挖掘研究 6
3.1 Web内容挖掘(Web Content Mining) 7
3.1.1 定义 7
3.1.2 应用 7
3.1.3 目前采用的主要算法 7
3.1.4 结合人工智能、模式识别等技术的Web内容挖掘 8
3.1.5 Web内容挖掘的现状总结 11
3.2 Web结构挖掘(Web Structure Mining) 12
3.2.1 定义 12
3.2.2应用 12
3.2.3 Web链接挖掘算法 12
3.3 Web使用挖掘(Web Usage Mining) 14
3.3.1 定义 14
3.3.2 挖掘过程和算法 14
4 语义Web(Semantic Web)的信息发现 15
4.1 什么是Semantic Web 15
4.2 RDF 16
4.2.1 元数据的定义 16
4.2.2 RDF的应用 16
4.2.3 RDF数据模型 17
4.3 Ontology(本体) 18
4.3.1 什么是Ontology 18
4.3.2 Ontology当前研究状况 19
4.3.3 Ontology的作用 19
4.4 基于Semantic Web的信息获取 19
5 结束语 20
参考文献 21

查看评论 已有0位网友发表了看法
  • 验证码: