硕士学位论文 商品搜索引擎系统 内容提要 现在网络上进行商品交易的活动越来越多,在这里将针对这种应用来设计商品搜索引擎,以方便用户能够在短时间内找到自己需要的商品,并及时购买,那么这就涉及到了商品搜索引擎的实现。商品搜索引擎的实现 和通用搜索引擎有所不同,他需要几个重要的环节,一方面是如何获得更多的网页,而这些网页要与商品有关,这就需要你选择初始站点时和通用搜索引擎不同,另外,信息提取的方式方法也要有所不同;另一方面是进行网页的消重,通用搜索引擎基本思想是为每个文档计算一组指纹,如果两个文档具有一定数量的相同指纹那么认为这两个文档具有较高的重叠程度,即认为是相似的。而这个系统采用了MD5算法加密网页关键字作为网页的数字指纹的方法来进行网页的消重,然后建立索引表;而第三方面是进行检索时采用了多种检索和排序策略。以使页面中信息更适合用户的需要和习惯,第四方面是在结果显示时采用了页面定制的不同方法如点击流分析法和协调过滤法等。采用了这种方法设计出的商品搜索引擎是具有较高的精确度的,但在召回率方面还是没有达到更高的要求,对此,应关键词搜索器,检索器,索引器,spider,搜索引擎目录 第I页 目录 绪论..............................................................................................................1 第一章搜索引擎系统概述.............................................................................3 1.1搜索引擎的历史................................................................................3 1.2搜索引擎的现状................................................................................5 1.3搜索引擎的定义及基本构成...............................................................8 第二章通用搜索引擎的实现.......................................................................10 2.1通用搜索引擎的分类.......................................................................10 2.2通用搜索引擎的架构及性能参数评估...............................................11 第三章商品搜索引擎系统简介....................................................................15 3.1商品搜索引擎的系统结构................................................................15 3.2网页抓取与链接分析模块................................................................17 3.3信息抽取模块..................................................................................18 3.4去重、索引和检索模块....................................................................18 第四章商品搜索引擎系统的设计及实现......................................................20 4.1网页采集模块的设计.......................................................................20 4.1.1Spider.....................................................................................20 4.1.2网页解析.............................................................................28 4.1.3DNS&URL存储系统.............................................................28 4.2结构化信息的提取...........................................................................29 4.3页面消重及索引建立的设计与实现..................................................30 4.3.1网页消重...............................................................................30 4.3.2分词模块的实现....................................................................31 4.3.3索引建立程序的设计.............................................................37 第五章检索引擎及检索结果显示................................................................40目录 第II页 5.1 Web检索...................................................................................40 5.1.1概念检索...............................................................................41 5.1.2直接提问式检索....................................................................42 5.1.3引导式分类浏览....................................................................43 5.1.4聚类检索...............................................................................43 5.1.5关联提示检索........................................................................44 5.1.6个性化检索...........................................................................45 5.2具体检索引擎实现...........................................................................45 5.2.1集合运算...............................................................................46 5.2.2检索信息结果排序的依据......................................................47 5.2.3两种重要的排序方法.............................................................49 5.3 CGI通信模块..................................................................................51 5.3.1界面定制法...........................................................................51 5.3.2点击流分析法(Click Stream Analysis)......................................52 5.3.3协调过滤法(Collaborative Filtering).........................................54 5.3.4Cookies方法...........................................................................55 5.3.5本系统界面实现的另一个考虑...............................................55 第六章结论................................................................................................57 参考文献.....................................................................................................58 附录控制结构及数据结构设计..................................................................65 一、模块..............................................................................................65 二、文件—功能对照............................................................................65 摘要...............................................................................................................I Abstract.........................................................................................................V 致谢 |
查看评论
已有0位网友发表了看法