文件大小:2.15MB 适用专业:计算机软件与理论 适用年级:研究生 论文编号:7954 论文简介: 硕士学位论文 应用于中文人名搜索引擎的Web信息提取技术研究,共51页
摘要:Web信息提取是指从Web文档中自动提取出所需信息的过程。本文研究Web信息提取并应用于面向主题的搜索引擎中,这里的主题是针对于中文人名的查找。 本文主要的工作是针对有关Web上中文人名的信息,研究Web信息提取技术,设计搜索引擎中的信息提取模块,并进行实验测试。本文从网页内容中提取关于人名的四个属性(出生年份、职业、相关地点、相关机构)。 论文中详细说明了信息提取模块的系统流程设计和流程中各个子模块的实现方法以及使用到的具体技术。针对不同的人名网页内容类型,本文使用了相应的提取模式的方法。对于“个人介绍类”网页,本文使用了知识工程方法(Knowledge Engineering Approach),人工构建了模式库;对于“个人活动类”网页,本文使用了自动训练方法(Automatic Training Approach),提出了一种新的模式提取算法,用来自动地从训练集中提取模式。最后针对Web上的某一中文人名网页集进行信息提取实验,实验证明信息提取模块的处理效果较好,能够从网页文本中提取出比较准确的信息。
关键词:信息提取; 搜索引擎; 模式匹配;
论文文件预览: 共1文件夹,1个文件,文件总大小:2.15MB,压缩后大小:2.12MB
- 硕士学位论文-应用于中文人名搜索引擎的Web信息提取技术研究
- 应用于中文人名搜索引擎的Web信息提取技术研究.NH [2.15MB]
|