文件大小:4.66MB 适用专业:程序设计 适用年级:大学 论文编号:203406 论文简介:
毕业设计-基于Nutch的农业资源搜索引擎的设计与实现,共21页,8436字,附源代码、任务书、开题报告等
主要内容:
搜索引擎(Search engine)是一个信息处理系统[1],能从大量信息中找到所需的信息,提供给 用户。搜索引擎指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统[2]。搜索引擎主要分为三个类型:全文索引[3]、目录索引、元搜索引擎(META Search Engine)。全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果[4]; 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索; 元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo[5]。
农业资源的搜索引擎主要分为三个大的模块:搜索器、索引器[6]、检索器。搜索器的功能是在互联网中获取信息[7];索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制[8]。搜索引擎的主要指标有响应时间、召回率、准确率、相关度等[9]。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障[10]。
要求:
1.农业资源搜索, 按照用户的需求在互联网上搜索相关有用信息,并建立相应的数据库。
2.农业资源索引,对数据库的信息建立相应的索引库。
3.农业资源检索,根据用户的查询要求,在索引库中快速检索出相关的信息。
4.网站资源导航,是农业相关资源搜索的辅助工具,涉及分类包括农业综合网站、农业报刊/杂志/图书、绿化/草业、各地农业类网站、花卉(木)/园艺、果树/蔬菜、机关/协会/组织/团体/研究机构、粮油食品、林业苗木、农业相关论坛/社区、农业相关大学院校、农药/化工/肥料、农业机械、农业类人才信息、生物技术、兽医/兽药/防疫、饲料工业、农业相关信息技术、畜牧养殖、渔业水产、农作物种植等。
摘 要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从Nutch、索引引擎、Web服务器三个方面进行详细的说明。
农业搜索引擎是从指定的Web页面中按照超连接进行解析、搜索。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。
关键词:农业;搜索引擎;索引;查询
目 录
摘 要 1
关键词 1
1 前言 2
2 搜索引擎简介 2
2.1 搜索引擎介绍 2
2.1.1 搜索引擎的分类 2
2.1.2 搜索引擎的工作原理 3
2.2 开发背景 3
2.3 开发环境及运行环境 4
2.3.1 开发环境 4
2.3.2 运行环境 4
3 搜索引擎的结构 4
3.1 搜索引擎系统概述 4
3.2 搜索引擎的构成 4
3.2.1 网络爬虫 4
3.2.2 索引与搜索 5
3.2.3 Web服务器 5
3.3 搜索引擎的主要指标及分析 5
4 数据采集 6
4.1 Nutch简介及工作原理 6
4.1.1 Nutch介绍 6
4.1.2 Nutch的安装 6
4.1.3 Nutch的运行 8
5 索引 8
5.1 Lucene介绍 8
5.2.1 全文检索系统的结构与功能 9
5.2.2 Lucene的索引效率 9
5.2.3 中文切分词机制 11
6 搜索 12
6.1 将项目布置到Tomcat 12
6.2 搜索的界面 12
7 农业资源搜索引擎的特点 14
7.1 农业资源搜索引擎的介绍 14
7.2 农业资源搜索引擎与其他搜索引擎对比 14
8 结束语 15
参考文献 15
论文文件预览: 共15文件夹,90个文件,文件总大小:4.66MB,压缩后大小:3.84MB
- 毕业设计-基于Nutch的农业资源搜索引擎的设计与实现
- 200841903323 王祥
- Search Engine
- search-engine
- zh
- include
header.html [190.00B] search.html [1.66KB]- include
style.html [1.03KB] footer.html [0.00B]- WEB-INF
- lib
xerces-2_6_2-apis.jar [121.80KB] xerces-2_6_2.jar [986.99KB] taglibs-i18n.jar [28.87KB] nutch-0.9.jar [466.73KB] lucene-misc-2.1.0.jar [42.86KB] lucene-core-2.1.0.jar [452.71KB] log4j-1.2.13.jar [349.79KB] hadoop-0.12.2-core.jar [1.04MB] commons-logging-api-1.0.4.jar [25.59KB] commons-logging-1.0.4.jar [33.44KB] commons-lang-2.1.jar [202.85KB] commons-cli-2.0-SNAPSHOT.jar [123.00KB]- classes
- org
- nutch
- jsp
text_en.properties [164.00B] text_de.properties [148.00B] text.properties [164.00B] search_zh.properties [310.00B] search_th.properties [567.00B] search_sv.properties [281.00B] search_pt.properties [249.00B] search_pl.properties [340.00B] search_nl.properties [239.00B] search_ms.properties [277.00B] search_hu.properties [219.00B] search_fr.properties [239.00B] search_fi.properties [335.00B] search_es.properties [253.00B] search_en.properties [281.00B] search_de.properties [290.00B] search_ca.properties [251.00B] search.properties [281.00B] explain_pl.properties [96.00B] explain_en.properties [84.00B] explain_de.properties [161.00B] explain.properties [84.00B] cached_pl.properties [115.00B] cached_en.properties [117.00B] cached_de.properties [126.00B] cached.properties [117.00B] anchors_pl.properties [112.00B] anchors_en.properties [83.00B] anchors_de.properties [88.00B] anchors.properties [83.00B] suffix-urlfilter.txt [577.00B] subcollections.xml [268.00B] regex-urlfilter.txt [721.00B] regex-normalize.xml [870.00B] parse-plugins.xml [5.99KB] parse-plugins.dtd [347.00B] nutch-site.xml [268.00B] nutch-default.xml [32.75KB] nutch-conf.xsl [511.00B] mime-types.xml [33.40KB] mime-types.dtd [339.00B] log4j.properties [297.00B] hadoop-site.xml [178.00B] hadoop-env.sh [1.21KB] crawl-urlfilter.txt [868.00B] crawl-tool.xml [2.06KB] context.xsl [2.89KB] configuration.xsl [1.28KB] common-terms.utf8 [990.00B] automaton-urlfilter.txt [599.00B] slaves [10.00B] web.xml [1.80KB] taglibs-i18n.tld [10.98KB]- META-INF
MANIFEST.MF [106.00B] text.jsp [2.26KB] search.jsp [11.04KB] refine-query-init.jsp [1.68KB] refine-query.jsp [1.65KB] more.jsp [2.44KB] index.jsp [1.14KB] explain.jsp [3.05KB] cluster.jsp [3.85KB] cached.jsp [3.79KB] anchors.jsp [3.00KB]- mydir
系统运行环境配置说明书.txt [270.00B] 09选题审批表.doc [33.50KB] 08论文正稿.doc [242.50KB] 07论文初稿.doc [217.50KB] 06工作情况表.doc [36.00KB] 05开题论证记录.doc [34.50KB] 04答辩记录.doc [35.00KB] 03中期检查表.doc [35.00KB] 02开题论证审批表.doc [47.50KB] 01任务书.doc [50.00KB]
|