您现在的位置:网站首页答辩论文计算机毕业设计计算机论文计算机软件

基于Nutch的搜索引擎实现及中文扩展

  • 简介:(毕业论文 页数:41 字数:19374) 基于Nutch的搜索引擎实现及中文扩展
    页数:41    字数:19374   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
(毕业论文 页数:41 字数:19374  开题报告) 基于Nutch的搜索引擎实现及中文扩展
摘 要:搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目,Nutch 提供完整的搜索引擎框架,在对全文进行索引的时候,索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发,我们可以利用它强大的网络资源采集功能对网络资源进行采集,并加工进入本地库,最后让用户直接面对有效的信息。
本文重点讨论搜索引擎原理,基于Nutch的搜索引擎的实现架构,同时网页抓取过程做了深入的研究和分析;最后,对在早期Nutch的版本的基础上如何更好的支持中文,实现中文分词搜索给出问题的解决方案,并对基于Nutch的搜索引擎的应用进行了讨论。

关键词:搜索引擎,抓取器,Nutch,中文分词

Nutch –Based Search Engine Implementation and Chinese extension

Abstract:Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain. Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.

Key words:Search engine, crawler, Nutch, Chinese segmentation


目录
1绪论 1
1.1 课题背景 1
1.2 搜索引擎的现状 2
1.2.1搜索引擎的发展历史 2
1.2.2搜索引擎的分类 3
1.2.3当前主流搜索引擎简介 4
1.3 论文组织结构 5
2搜索引擎基本组成及数据结构 6
2.1搜索引擎基本组成及工作流程 6
2.1.1基本组成 6
2.1.2工作流程 6
2.2 存储结构 8
2.2.1页面存储库 8
2.2.2词典库 8
2.2.3 Hits列表 9
2.3 索引结构 10
2.3.1文档索引库 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎实现的关键技术 11
3.1网页抓取技术研究与设计 11
3.1.1抓取技术的协议分析 11
3.1.2通信协议 12
3.1.3 HTML解析 13
3.2 网页抓取方法 13
4 基于Nutch实现架构 16
4.1 基于Nutch的搜索引擎开发环境和体系结构 16
4.1.1 基于Nutch的搜索引擎的开发环境 16
4.1.2基于 Nutch的搜索引擎的体系结构 16
4.2 基于Nutch的搜索引擎的抓取过程运行 20
4.3 搜索结果展示 22
5 Nutch中文扩展设计与实现 23
5.1中文分词和搜索引擎 23
5.2 中文分词算法 23
5.2.1 基于字符串匹配的分词算法 24
5.2.2基于理解的分词方法 25
5.2.3基于统计的分词方法 25
5.3 中文分词难点 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分词 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC构造中文分析模块 31
5.6小结 33
结论 33
总结 33
展望 33
致谢 34
参考文献 34

1绪论
1.1 课题背景
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点[2],联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到 想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能。而帮助你通过整个互联网快速查找到目标信息的就是越来越被重视的搜索引擎。络上已经有很多关于搜索引擎方面的报道。
目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。
越来越多的公司都希望在搜索引擎这座金矿中挖到金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度总裁李彦宏说:搜索引擎不是人人都能做的领域,进入的门槛比较高。现有web搜索引擎的数目在下降. 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。
查看评论 已有0位网友发表了看法
  • 验证码: