(毕业论文 页数:36 字数:10993 带程序)摘要:文档自动分类系统是信息处理领域中的一项重要研究课题。本课题论述了一个中文文档自动分类系统的设计思想、实现过程、开发环境、运行环境和开发工具,并着重介绍了系统实现中一些主要技术问题的处理,如文分类模型、特征提取、词典构造等。 关键词 文本分类 分类模型 VSM 特征提取
Abstract:The text classifier is an important research thesis in information field.This thesis has made a brief introduction on the analysis ideas,the realization procedure,the development conditions,the application methods and so on.And it offers a solution of some technological problems,such as,text categorization model,feature extraction and dictionary formlization. Key words:Text categorization;Categorization model;Vector space model;Feature extraction
目 录 1、绪论 1 1.1 课题背景 1 1.2 系统概述 2 2、相关技术介绍 5 2.1 DELPHI的概述 5 2.2 Delphi开发数据库应用程序 6 2.3 Delphi应用程序框架和设计 6 2.3.1 项目文件 7 2.3.2 单元文件 7 2.3.3 Form文件 7 2.3.4 资源文件 7 2.3.5项目选项和桌面设置文件 7 2.3.6包文件 8 2.4 Delphi多媒体应用程序 8 3、系统的设计 8 3.1 系统需求分析 8 3.2 设计的基本思想 9 3.3 系统的结构设计 9 3.3.1 系统结构图 9 3.3.2 模块功能描述 10 3.4 关键技术 11 3.4.1 文档表示与特征匹配 11 3.4.2 特征提取 12 3.4.3 阀值确定 13 3.4.4 词条切分 14 3.4.5词典结构与词频统计 14 4、系统的实现 17 4.1 功能模块的实现和程序框图 17 4.1.1 创建一个工程 17 4.1.2 语料库维护模块 18 4.1.3 词典维护模块 18 4.1.4 特征提取 18 4.1.5 文档分类模块 19 4.2 系统开发环境 21 4.3 运行环境 22 5、总结 23 致 谢 23 参 考 文 献 24 附录 25
1、绪论 1.1 课题背景 随着信息技术的发展,特别是Internet应用普及,人们已经从信息缺乏的时代过渡到信息极大丰富的时代,如何从大量信息中迅速有效地提取出所需信息也就成为了一项重要的研究课题,文本信息的自动分类是其中一个重要研究方面。 文档分类是指根据文档的内容或属性,将大量的文档归到一个或多个类别的过程。文档分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造方法有很多,主要有统计方法、机器学习方法、神经网络方法等。国外对文档分类技术的研究已经开展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的应用。在国内,文档自动分类技术的研究起步较晚,且由于中文与英文存在着较大的差异,不能照搬国外的研究成果,因此有必要研究并开发出实用化的中文文档自动分类系统。 本文介绍了一个采用向量空间模型(Vector Space Model,VSM),针对中文技术文档的自动分类系统的设计与实现。 1.2 系统概述 系统可对文档集进行有序的组织,即把相似的、相关主题的文档组织在一起,从而为用户提供更高效的搜索与更准确的查询结果。除了作为文档集的组织工具,文档分类系统还有更广泛的应用: ① 电子会议:通过对与会者意见、建议进行分类以确定进一步讨论的主题。 ② 邮件分类:对用户收到的电子邮件按主题进行分类。 ③ 信息过滤:根据用户的要求,将相关文档分配给可能感兴趣的用户。 文档分类系统的实现通常有统计方法与知识工程方法两种技术。知识工程方法必须编制大量的推理规则,费时费力,代价很高,因而不大适用于复杂的系统。而统计方法的实现较为简单,且在实际应用中表现出良好的性能,因此得到了广泛的应用。系统采用了基于概率统计的方法。 本系统是基于Delphi的技术特点实现的。Delphi是一套Borland软件公司开发的第一款RAD工具,可支持基于XML和SOAP的Web Services技术开发和部署应用程序。它是一种基于Object Pascal语言的可视化集成开发工具。利用Delphi编程,可以快速、高效地开发出基于Windows环境的各类程序,尤其在数据库和网络方面,Delphi更是一个十分理想的软件开发平台。 1) 利用Delphi这套可视化开发环境特点创建和运行了输入一篇文本,由系统给出 是否属于系统定义的类型的文本自动分类系统。 2) TcomboBox是Delphi中的一个组件,为组合框组件。组合框由一个编辑框和一个 下式列表框组成,可以从多个列表条目中选择一个。利用它可以选择文件所在的盘。 3) TlistBox组件可以显示一系列字符串,可以选择其中的一个或多个。Form1中的DirectoryListBox选择文件所在的路径,FileList用来选择统计或分类的文件名。
4) 编写代码时,Delphi还提供了对象成员自动感知功能,它可以自动显示与类有关 的变量和成员函数,只要用户输入“.”符号后,由Delphi自动完成变量和成员函数的检索。 5) 在代码窗口输入函数或过程名的左括号“(”后,Delphi将自动显示函数或过程的参数名和类型 6) 系统是一个完整的系统。程序设计中,其入口只有一个,即是登陆界面。无论是 什么形式的文本文件,必须先选取路径,然后将文件列表中的文件通过点击分类按钮获取文件的类型。 经反复实验和测试表明,系统不仅对文本文件适用,而且对于WORD文档,只要通过 OLE建立超级链接即可。 本论文的内容组织是这样的:第一章是绪论,主要介绍课题背景和系统具有的功能特点;第二章介绍课题的相关技术,其中包括Delphi的概述,Delphi的数据库应用程序开发、应用程序开发、多媒体应用程序开发;第三章介绍了课题的设计思想,其中包括了系统的要求和系统的结构框架;第四章具体介绍了系统的实现过程及程序代码;第五章是总结。
|