您现在的位置:网站首页答辩论文计算机毕业设计计算机论文

毕业设计 基于java的搜索引擎的实现

  • 简介:  毕业设计 基于java的搜索引擎的实现 共60页,26481字
    类型:word   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
  毕业设计 基于java的搜索引擎的实现 共60页,26481字
   摘 要
   随着互联网的不断发展和日益普及,网上的信息量在爆炸式增长,如何在最短时间内找到我们所需要的资料就成了一个非常关键的问题。为了解决这个问题,Web搜索引擎就随之出现了,并得到了飞速发展,现在已经成为互联网上仅次于电子邮件的第二大网络服务。
   首先,本文讲述了Web搜索引擎的历史和现状。
   其次,本文介绍了Web搜索引擎的基本原理和技术。
   再次,本文分析了Web搜索引擎的系统结构,并着重从网络蜘蛛,索引引擎和Web查询服务三个部分进行了详细的描述。与此同时,本文描述了在Java开发环境下,如何设计实现一个利用开源工具包的Web搜索引擎——WebCdf,包括Web信息搜集索引器WebSpider和Web查询服务器Search两个子系统。
   WebCdf搜索引擎从指定的Web页面开始解析,把获得的链接放入工作队列,在万维网上进行广度优先搜索,并把每个页面的URL地址和文本进行索引存入数据库,然后Web服务器接收客户端请求,从数据库中返回页面信息。
   本文介绍和研究了一系列与Web搜索引擎相关的技术,包括网页抓取、相关性排序(VSM)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。
   最后,本文简单地讲述了搜索引擎的未来发展趋势。
   关键词: 互联网,搜索引擎,信息提取,Java
  
   目 录
   1 概述 1
   1.1引言 1
   1.2 搜索引擎的发展历史 2
   1.3 搜索引擎的现状介绍 3
   1.4 小结 4
   2 相关技术 5
   2.1 相关抓取技术 5
   2.2 相关排序技术 6
   2.3 信息索引技术 8
   2.4 提高索引性能 8
   2.5 其它相关技术 9
   2.5.1数据存储 9
   2.5.2 中文分词 10
   2.6 小结 10
   3 Web搜索引擎的原理分析 11
   3.1 基本原理 11
   3.2 网页搜集 12
   3.3 预处理 13
   3.4 查询服务 14
   3.5 搜索引擎的技术指标 15
   3.6 小结 15
   4 Web搜索引擎的系统结构 16
   4.1系统概述 16
   4.2系统各个部分功能 17
   4.2.1网络蜘蛛 17
   4.2.2 索引与检索 18
   4.2.3 Web查询服务器 18
   4.3 系统开发工具及资源 18
   4.4 小结 19
   5 两种Spider的实现 20
   5.1 Pages-Spider的实现 20
   5.1.1 Pages-Spider介绍 20
   5.1.2 Pages-Spider结构分析 20
   5.1.3 Pages-Spider程序结构 22
   5.1.4 Pages-Spider实现 26
   5.1.5小结 28
   5.2 Mp3-Spider的实现 29
   5.2.1 Pages-Spider程序结构 29
   5.2.2 Mp3s-Spider结构分析 29
   5.2.3 Mp3s-Spider实现 31
   5.2.1 小结 33
   6 基于Lucene的全文索引实现 34
   6.1 Lucene全文检索介绍 34
   6.2 Lucene的特性分析 34
   6.2.1 Lucene的核心部分——索相与排序 34
   6.2.2 Lucene相关度积分公式 35
   6.2.3 Lucene特性 36
   6.3 Lucene的工作原理 37
   6.3.1 全文检索的实现机制 37
   6.3.2 Lucene的索引效率 37
   6.3.3 中文分词问题 38
   6.4索引功能的实现 39
   6.4.1 分词实现 39
   6.4.2 PAGES-索引功能实现 39
   6.4.3 MP3S-索引功能实现 40
   6.5索引合并的实现 41
   7 基于Tomcat的服务器实现 43
   7.1 Tomcat介绍 43
   7.2 客户端设计 43
   7.3 服务端设计 46
   7.4 部署Tomcat项目 48
   7.5 小结 49
   8 总结与展望 50
   8.1 设计总结 50
   8.2 未来展望 51
   参考文献 53
   致 谢 55
查看评论 已有0位网友发表了看法
  • 验证码: