您现在的位置:网站首页答辩论文计算机毕业设计计算机论文

搜索引擎——原理、技术与系统电子书

  • 简介:  搜索引擎——原理、技术与系统电子书
    类型:pdf   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
  搜索引擎——原理、技术与系统电子书
   前言
   第一章 引论................................................................................................................. 1
   第一节 搜索引擎的概念................................................................................................ 2
   第二节 搜索引擎的发展历史........................................................................................ 3
   第三节 一些著名的搜索引擎........................................................................................ 7
   上篇 WEB搜索引擎基本原理和技术.................................................................... 16
   第二章 WEB搜索引擎工作原理和体系结构.......................................................... 17
   第一节 基本要求.......................................................................................................... 17
   第二节 网页搜集.......................................................................................................... 18
   第三节 预处理.............................................................................................................. 20
   第四节 查询服务.......................................................................................................... 22
   第五节 体系结构.......................................................................................................... 25
   第三章 WEB信息的搜集.......................................................................................... 29
   第一节 引言.................................................................................................................. 29
   一、 超文本传输协议.............................................................................................. 29
   二、 一个小型搜索引擎系统.................................................................................. 31
   第二节 网页搜集.......................................................................................................... 33
   一、 定义URL类和Page类...................................................................................... 34
   二、 与服务器建立连接.......................................................................................... 39
   三、 发送请求和接收数据...................................................................................... 41
   四、 网页信息存储的天网格式.............................................................................. 42
   第三节 多道搜集程序并行工作.................................................................................. 45
   一、 多线程并发工作.............................................................................................. 46
   二、 控制对一个站点并发搜集线程的数目.......................................................... 47
   第四节 如何避免网页的重复搜集.............................................................................. 47
   一、 记录未访问、已访问URL和网页内容摘要信息.......................................... 47
   二、 域名与IP的对应问题...................................................................................... 48
   第五节 如何首先搜集重要的网页.............................................................................. 49
   第六节 搜集信息的类型.............................................................................................. 52
   第七节 本章小结.......................................................................................................... 54
   iii
   第四章 对搜集信息的预处理................................................................................... 55
   第一节 信息预处理的系统结构.................................................................................. 55
   第二节 索引网页库...................................................................................................... 56
   第三节 中文自动分词.................................................................................................. 58
   第四节 分析网页和建立倒排文件.............................................................................. 64
   第五节 本章小结.......................................................................................................... 66
   第五章 信息查询服务............................................................................................... 67
   第一节 查询服务的系统结构...................................................................................... 67
   第二节 检索的定义...................................................................................................... 68
   第三节 查询服务的实现.............................................................................................. 69
   一、 结果集合的形成.............................................................................................. 69
   二、 查询结果显示................................................................................................. 70
   第四节 本章小结.......................................................................................................... 72
   中篇 对质量和性能的追求..................................................................................... 73
   第六章 可扩展搜集子系统....................................................................................... 75
   第一节 天网系统概述和集中式搜集系统结构........................................................... 75
   一、 天网系统结构................................................................................................. 75
   二、 集中式搜集系统.............................................................................................. 76
   第二节 利用并行处理技术高效搜集网页的一种方案............................................... 82
   一、 节点间URL的划分策略.................................................................................. 83
   二、 关于性能的讨论.............................................................................................. 86
   三、 性能测试和评价.............................................................................................. 88
   四、 系统的动态可配置性设计.............................................................................. 91
   第三节 本章小结.......................................................................................................... 93
   第七章 网页净化与消重........................................................................................... 95
   第一节 网页净化与元数据提取.................................................................................. 95
   一、 引言................................................................................................................. 95
   二、 DocView模型.................................................................................................. 98
   三、 网页的表示..................................................................................................... 99
   四、 提取DocView模型要素的方法..................................................................... 103
   五、 模型应用及实验研究.................................................................................... 108
   第二节 网页消重算法................................................................................................ 112
   一、 消重算法....................................................................................................... 112
   iv
   二、 算法评测....................................................................................................... 115
   第八章 高性能检索子系统..................................................................................... 120
   第一节 检索系统基本技术........................................................................................ 121
   一、 系统设计与结构............................................................................................ 121
   二、 索引创建....................................................................................................... 124
   三、 检索过程....................................................................................................... 126
   第二节 倒排文件性能模型........................................................................................ 127
   一、 引言............................................................................................................... 128
   二、 倒排文件的概念............................................................................................ 129
   三、 倒排文件的一种性能模型............................................................................ 131
   四、 结合计算机性能指标的考虑........................................................................ 136
   第三节 混合索引技术................................................................................................ 138
   一、 引言............................................................................................................... 138
   二、 混合索引原理............................................................................................... 139
   三、 混合索引实现............................................................................................... 141
   第四节 倒排文件缓存机制........................................................................................ 144
   一、 引言............................................................................................................... 144
   二、 倒排文件缓存............................................................................................... 145
   三、 负载特性....................................................................................................... 147
   四、 缓存策略的选择............................................................................................ 149
查看评论 已有0位网友发表了看法
  • 验证码: