(论文 字数:4103页数:5)【内容提要】本文介绍了基于SPIDER技术的搜索引擎的核心实现--内容分析与查询。该核心采用了相关的信息处理和人工智能技术,提出了逐词扫描最大匹配法对网页内容进行切词处理,以及以用户“点击率”的观点对网页进行排名,从而解决了查询速度慢和准确度低的实际问题,满足了用户对搜索引擎又快又准的迫切要求。
【关键词】SPIDER技术,搜索引擎,逐词扫描最大匹配法,点击率
ABSTRACT: This thesis describes the implementation of the hard core of SPIDER Search Engine, Content Analysis and Query. The System uses a new Mathing method called Word By Word Maximum Mathing method to divide a passage into phrases, and uses the “Hit Rate” which comes from the users to arrange the WebPages.Thus it can make the query more quickly and more accurate.
Keywords: SPIDER Technology、Search Engine、Word By Word Maximum Mathing method、Hit Rate
目录
1 引言 2 系统核心方案设计 3 简述系统核心实现及关键技术 4 总结与展望
1引言 搜索引擎已在国内兴起并被广泛使用,其关键技术也渐趋成熟。本系统实现了基于SPIDER技术的搜索引擎的核心――网页文档内容分析与用户查询,并运用了人工智能的方法对汉语进行分词处理,改进了其常规的最大匹配法,提出了逐词扫描最大匹配法,从而提高了用户的查询速度和准确度。论文还提出聋用用户浏览查询结果时的“点击率”来提高网页查询相关度的新观点。系统通过上面两种方法,大大提高了用户查询的速度和准确度,从而具有重要的实际应用价值。 |