您现在的位置:网站首页答辩论文计算机毕业设计计算机论文计算机应用论文

[计算机毕业设计] 汉语股市公告信息抽取系统的设计与..

  • 简介: 原文 1.1 信息抽取技术(Information Extraction)信息技术高速发展的时代中,信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位...
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
  原文

1.1 信息抽取技术(Information Extraction)
信息技术高速发展的时代中,信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位。
近年来,随着计算机和互联网技术的迅猛发展,各领域可及信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取(Information Extraction,简称IE)技术,是自然语言处理领域中一种新兴的技术。该技术通过抽取、过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的自然语言信息,通过抽取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。
1.1.1 信息抽取技术的发展
信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息抽取发展上重要的研究成果以及国内外的研究现状[7]。
 ATRANS 系统
ATRANS 系统是早在1981年由Cowie研究出来关于动植物正规结构描述数据库的系统及其商用化产品。该系统采用了概念句子分析技术,通过一些简单的语言处理技术能够完成限制在小规模,特定专业领域的信息抽取任务。
 FRUMP系统
FRUMP系统由Gerald Dejong在80年代初实现。该系统把有限新闻网络作为数据源,使用一些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索、概念句子分析、脚本匹配等方法来寻找新闻故事。FRUMP系统是一个面向语义的系统,采用了一个特定专业领域的事件描述脚本知识库。
......


  目录

目录
1 概述
2 信息抽取模块的设计
3 信息抽取的关键算法
4 实现与结果分析
参考文献
致谢


  参考资料

参考文献
1. 刘开瑛,《中文文本自动分词技术研究》,山西大学计算机科学系,2001
2. 张冬茉,姚天昉,王纤,《多语种天气预报文本生成系统中句子规划器的设计与实现》,上海交通大学计算机系
3. 刘开瑛,郭炳炎,《自然语言处理》,科学出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999
6. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of Pattern-Match Rules for Information Extraction, 1999
7. 张冬茉,王纤,《基于WEB的信息抽取模型的研究》,上海交通大学,2001
8. 姚天顺,《自然语言理解》,清华大学出版社,1995
9. 蔡自兴,徐光祐,《人工智能及其应用(第二版)》,清华大学出版社,1996
10. 于江生,《隐Markov模型及其在自然语言处理中的应用》,北京大学计算语言学研究所
11. 于江生,《计算语言学中的概率统计方法》,北京大学计算语言学研究所,1999
12. Joseph F. McCarthy, A Trainable Approach to Coreference Resolution for Information Extraction, University of Massachusetts Amherst, 1996
13. 于江生,《基于约束的句法-语义分析》,北京大学计算语言学研究所
14. 胡睿,《基于INTERNET的信息抽取模型的研究和实现》,上海交通大学计算机系,2001
15. 孙宾,《现代汉语文本的词语切分技术》,北京大学计算语言学研究所(http://icl.pku.edu.cn/bswen/nlp/report1-sementation.html)
16. 孙宾,《Shift-Reduce-Putback Parsing》,北京大学计算语言学研究所,1999(http://icl.pku.edu.cn/bswen/pls/shift-reduce-putback.html)
17. 孙宾,《汉语信息提取的部分研究》,北京大学计算语言学研究所(http://icl.pku.edu.cn/bswen/nlp/bsPhD-chapt4.html)
18. 姚天昉等,《一种基于信息抽取和文本生成的多语种信息检索模型》,上海交通大学计算机科学与工程系,德国人工智能研究中心


  简单介绍

摘要

本文介绍了一个基于中文信息抽取模型的股市公告信息抽取系统(SBIES)的设计与实现。介绍了该系统的结构框架和分布图。讨论了汉语信息抽取模型的具体结构,构建了由自动分词、自动标注和模板填充三个阶段组成的简化模型。简单介绍了自动分词的常用算法和自动标注中的标注规范。重点探讨了模板填充的具体算法。文中分别讨论了采用基于规则的结构主义方法和基于语料库概率统计的功能主义方法。着重讨论了采用隐马尔科夫模型进行信息抽取的具体算法。对模型的参数获取算法作了讨论,改进了Baum-Welch算法以适应信息抽取的应用。对领域文本做了人工标注,通过计算机处理获取所需的统计数据。利用统计数据完善HMM模型。

关键词:信息抽取,隐马尔科夫模型,自然语言

查看评论 已有0位网友发表了看法
  • 验证码: