网页机器人_VB毕业设计

（毕业论文字数：18244 页数：27）摘要：随着网络的发展，数据量的不断增加，搜索引擎显得越来越重要。网页机器人是搜索引擎中的核心部分,它从给定的统一资源地址开始分析,递归地搜索新的Web文档。作者论述了网页机器人的工作原理,设计了一个小型的机器人程序，用VB实现了Web文档的下载、超链接提取、新超链接的可用性判断。为提高网页机器人的效率使用了WinInet API中的ＨＴＴＰ函数。对网站建设和信息采集工具的开发具有一定的参考价值。

关键词：网页机器人,搜索引擎,信息采集

Abstract ：Along with the development of the network and continuously increase of the data quantity,the Search Engine seems to be more and more important.The Web Robot is the core part in the Search Engine. It start from the URLs gived to analyze web pages and to search the new web pages. The author discussed the work principle of the Web Robot and designed a small scaled Web Robot program with VB, which can download the web pages from the websites,find out the hyperlinks from the web pages and test the availability of the new hyperlinks. To improve the efficiency of the Web Robot,the designer used the HTTP functions within the WinInet API .The paper is valuable for constructing a website and developing a Information Retrieval tool.

Key Words:Web Robot;Search Engine; Information Retrieval

目录
第一章绪论
1.1网页机器人概述
1.2网页机器人的研究与发展概况
1.3网页机器人研究使用中存在的问题
第二章网页机器人设计的相关理论
2.1网页机器人的基本工作原理
2.2网页机器人的搜索策略
2.3媒体文件内容的提取
2.4网页的更新周期
2.5网页机器人设计中应注意的问题
2.6 HTTP协议
第三章系统设计与相关技术
3.1系统设计概况
3.1.1系统设计的总体目标
3.1.2系统设计开发环境
3.2 程序整体流程图
3.3 网页下载流程
3. 4 实现网页下载的方法
3.5 链接的提取
3.6数据库设计
3.6.1数据库表结构
3.6.2数据库的操控方式
3.7网页搜索策略的选择
3.8网页更新机制的实现
第四章测试分析
4.1软件测试平台
4.2测试结果
4.3分析结果
第五章总结
致谢
参考文献
附录A翻译原文
附录B翻译译文

第一章绪论

1.1网页机器人概述

网页机器人是搜索引擎的一部分，要了解它就要从了解搜索引擎入手。所谓搜索引擎, 就是一种指能够自动对WWW 资源建立索引或进行主题分类, 并通过查询语法为用户返回匹配资源的系统。随着互联网规模的飞速增长，高效、准确地获得包含用户所需信息的网页，日益成为需要迫切解决的问题。搜索引擎是解决这一问题的一个有效方法。互联网上使用的搜索引擎很多, 像Google、Info seek、Lycos、Yahoo、百度等都是网络上非常著名的搜索引擎站点, 这些搜索引擎所采用的技术和实现的方法各有其特点, 但是总体来说可以分为三类：
a.基于目录的搜索引擎。这类搜索引擎的特点是所有索引工作都由人工编辑完成。具体的实现是各个网站管理者根据搜索引擎的规范提供站点的描述, 搜索引擎能根据这些描述, 由搜索引擎的编辑人员来建立数据库。如Yahoo 就是这类搜索引擎。它的优点是分类比较精确; 缺点是索引库的更新需要人工干预, 费用高。
b.基于网页机器人的搜索引擎。它的特点是网页信息的采集不需要人工干预, 网页机器人程序它能够自动在各个网站上搜集网站信息, 并能够自动更新索引库。如A ltavista、L yco s 就是这类搜索引擎。它的优点是费用较低; 缺点则是分类不精确, 误检、漏检率高。本文所讨论的就是与这类搜索引擎相关的网页机器人。
c.基于网页机器人和人工干预混合的搜索引擎。目前, 越来越多的搜索引擎采用了基于网页机器人和人工干预混合的方式。如Newhoo等。这类搜索引擎它能够利用前两种搜索引擎的优点来弥补它们各自的缺点, 这是一种折衷的方案。
基于网页机器人的搜索引擎主要由三部分组成, 即网页机器人、索引器和搜索接口。
a. 网页机器人: 主要功能就是搜集互联网上的信息资源。运行网页机器人时, 只要提供极少量的起始网页, 网页机器人就能够按一定的规则沿着网页上的超级链接在网络上漫游, 收集资源信息, 直至遍历整个网站。它的性能有很大程度上影响了搜索引擎站点的规模。
b.索引器: 由网页机器人从网上取来的信息杂乱无章、五花八门, 如果把它们直接用于查询, 效率将极为低微。索引器的主要功能就是分析收集的信息, 建立索引库以供查询。它主要影响搜索引擎的效率和查准率。
c. 查询接口: 它是用户与搜索引擎的接口。它通常是一个W eb 应用程序, 主要负责接收、解释用户的请求、查询索引库以及返回排序后的搜索结果。它的用户界面友好与否是用户能否最大限度地使用搜索引擎的功能的关键。
由上可知，网页机器人是基于网页机器人的搜索引擎一个主要组成部分，它担负着为搜索引擎采集信息的工作，是设计与实现好Web搜索引擎的基础。

网页机器人

栏目导航

热门关键词

最新论文

随机论文