搜索引擎——原理、技术与系统电子书 前言 第一章 引论................................................................................................................. 1 第一节 搜索引擎的概念................................................................................................ 2 第二节 搜索引擎的发展历史........................................................................................ 3 第三节 一些著名的搜索引擎........................................................................................ 7 上篇 WEB搜索引擎基本原理和技术.................................................................... 16 第二章 WEB搜索引擎工作原理和体系结构.......................................................... 17 第一节 基本要求.......................................................................................................... 17 第二节 网页搜集.......................................................................................................... 18 第三节 预处理.............................................................................................................. 20 第四节 查询服务.......................................................................................................... 22 第五节 体系结构.......................................................................................................... 25 第三章 WEB信息的搜集.......................................................................................... 29 第一节 引言.................................................................................................................. 29 一、 超文本传输协议.............................................................................................. 29 二、 一个小型搜索引擎系统.................................................................................. 31 第二节 网页搜集.......................................................................................................... 33 一、 定义URL类和Page类...................................................................................... 34 二、 与服务器建立连接.......................................................................................... 39 三、 发送请求和接收数据...................................................................................... 41 四、 网页信息存储的天网格式.............................................................................. 42 第三节 多道搜集程序并行工作.................................................................................. 45 一、 多线程并发工作.............................................................................................. 46 二、 控制对一个站点并发搜集线程的数目.......................................................... 47 第四节 如何避免网页的重复搜集.............................................................................. 47 一、 记录未访问、已访问URL和网页内容摘要信息.......................................... 47 二、 域名与IP的对应问题...................................................................................... 48 第五节 如何首先搜集重要的网页.............................................................................. 49 第六节 搜集信息的类型.............................................................................................. 52 第七节 本章小结.......................................................................................................... 54 iii 第四章 对搜集信息的预处理................................................................................... 55 第一节 信息预处理的系统结构.................................................................................. 55 第二节 索引网页库...................................................................................................... 56 第三节 中文自动分词.................................................................................................. 58 第四节 分析网页和建立倒排文件.............................................................................. 64 第五节 本章小结.......................................................................................................... 66 第五章 信息查询服务............................................................................................... 67 第一节 查询服务的系统结构...................................................................................... 67 第二节 检索的定义...................................................................................................... 68 第三节 查询服务的实现.............................................................................................. 69 一、 结果集合的形成.............................................................................................. 69 二、 查询结果显示................................................................................................. 70 第四节 本章小结.......................................................................................................... 72 中篇 对质量和性能的追求..................................................................................... 73 第六章 可扩展搜集子系统....................................................................................... 75 第一节 天网系统概述和集中式搜集系统结构........................................................... 75 一、 天网系统结构................................................................................................. 75 二、 集中式搜集系统.............................................................................................. 76 第二节 利用并行处理技术高效搜集网页的一种方案............................................... 82 一、 节点间URL的划分策略.................................................................................. 83 二、 关于性能的讨论.............................................................................................. 86 三、 性能测试和评价.............................................................................................. 88 四、 系统的动态可配置性设计.............................................................................. 91 第三节 本章小结.......................................................................................................... 93 第七章 网页净化与消重........................................................................................... 95 第一节 网页净化与元数据提取.................................................................................. 95 一、 引言................................................................................................................. 95 二、 DocView模型.................................................................................................. 98 三、 网页的表示..................................................................................................... 99 四、 提取DocView模型要素的方法..................................................................... 103 五、 模型应用及实验研究.................................................................................... 108 第二节 网页消重算法................................................................................................ 112 一、 消重算法....................................................................................................... 112 iv 二、 算法评测....................................................................................................... 115 第八章 高性能检索子系统..................................................................................... 120 第一节 检索系统基本技术........................................................................................ 121 一、 系统设计与结构............................................................................................ 121 二、 索引创建....................................................................................................... 124 三、 检索过程....................................................................................................... 126 第二节 倒排文件性能模型........................................................................................ 127 一、 引言............................................................................................................... 128 二、 倒排文件的概念............................................................................................ 129 三、 倒排文件的一种性能模型............................................................................ 131 四、 结合计算机性能指标的考虑........................................................................ 136 第三节 混合索引技术................................................................................................ 138 一、 引言............................................................................................................... 138 二、 混合索引原理............................................................................................... 139 三、 混合索引实现............................................................................................... 141 第四节 倒排文件缓存机制........................................................................................ 144 一、 引言............................................................................................................... 144 二、 倒排文件缓存............................................................................................... 145 三、 负载特性....................................................................................................... 147 四、 缓存策略的选择............................................................................................ 149 |
查看评论
已有0位网友发表了看法