您现在的位置:网站首页答辩论文计算机毕业设计JAVA/JSP

基于java网络蜘蛛程序

  • 简介:(毕业论文 页数:43 字数:12979  任务书 开题报告 PPT答辩稿)基于java网络蜘蛛程序
    页数:43    字数:12979   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
(毕业论文 页数:43 字数:12979  任务书 开题报告 PPT答辩稿)基于java网络蜘蛛程序
摘 要:在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序Web搜索引擎技术中关键的一部分。
本论文基于现有的知识理论实现了蜘蛛程序,从给定网址开始进行爬行搜索引擎,利用数据库队列技术管理网页链接,将访问过的网页资源下载到本地硬盘保存。通过使用Lucene工具包对下载资源。利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。
通过设计分析,完成了自己的蜘蛛爬行程序。程序按照初始设计功能完成,实现了对网络资源的收集和整理。功能通过了测试,程序可以正常稳定运行
最后论文对全文进行了总结,并对为了发展的方向进行了展望。

关键字:HTTP,线程,Spider,Lucene

Abstract:At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.
This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.
Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.

Key words: HTTP, routine, spider, Lucene


目 录
1 绪 论 1
1.1课题研究背景 1
1.2国内外研究现状 1
1.3 本论文的结构 4
2 程序设计目标及策略 5
2.1程序分析 5
2.1.1 多线程搜索 5
2.1.2 数据库队列管理 5
2.1.3 检索引擎——Lucene 6
2.2功能点技术分析 6
2.2.1 Spider如何获取URL链接的获取 6
2.2.2 程序结构的选择 6
2.2.3利用递归构造Spider 6
2.2.4利用非递归构造Spider 7
2.2.5 Spider程序的队列 7
2.2.6全文索引 8
3 程序设计与实现、测试 9
3.1 HTTP类及相关类的设计与实现 9
3.2 蜘蛛程序工作核心类设计与实现 13
3.2.1 蜘蛛程序中线程的设计 13
3.2.2 多线程同步 14
3.3 Spider类及其相关类的实现 15
3.3.1 ISpiderReportable接口 15
3.3.2 IWorkloadStorable接口 15
3.3.3 SpiderSQLWorkload类 16
3.3.4 SpiderWorker类 16
3.3.5 SpiderDone类 18
3.3.6 Spider类 19
3.4程序测试 20
3.4.1硬件环境 20
3.4.2软件环境 20
3.4.3测试用例 20
3.4.4测试结论 21
4 总结 22
致 谢 25
参考文献 26
附录:代码 27

1 绪 论
1.1课题研究背景
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象。
而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一个重要的且是免费的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网页数据,并在后台按相关条件进行索引;另一方面,各大网站为了能让自己的内容更多的通过搜索引擎向网民展示,都开始对网站结构进行重大调整,其中包括扁平化结构设计、动态(网页)转静态(网页)、Sitemap等。
这些看来不经意的举动都让我们切身感受到搜索引擎对我们网络使用方式的改变起到了重要作用。并且,正因为搜索引擎的兴起以及社会各界对其重视程度日渐高涨,还由此创造了一个全新的职位—SEO。实际上,搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。
查看评论 已有0位网友发表了看法
  • 验证码: