您现在的位置:网站首页答辩论文计算机毕业设计

毕业论文 基于XML技术的版面复原研究

  • 简介:毕业论文-基于XML技术的版面复原研究,共54页,26602字,版面复原技术是文档数字化过程中一个重要的步骤。本文利用XML(eXtensible Markup Language)支持结构化标签组织文档的优点,实现了文档的多层次,高保真的版式复原。主要的工作
    类型:word    页数:54    字数:26602   
    资料包括:论文   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
文件大小:4.33MB
适用专业:电子信息工程
适用年级:大学
论文编号:209544

论文简介:
毕业论文-基于XML技术的版面复原研究,共54页,26602字
版面复原技术是文档数字化过程中一个重要的步骤。本文利用XML(eXtensible Markup Language)支持结构化标签组织文档的优点,实现了文档的多层次,高保真的版式复原。主要的工作有:
1,针对目前文档版面复原尚未得以解决的问题,尤其是字体识别问题进行了研究。在字体识别方面,实现了一种基于纹理的字体识别方法,并与一种基于单字小波特征的字体识别算法进行对比实验,选定后者为基础实现了字体识别模块用于字体信息的提取,可以识别7种中文字体和2种日文字体。
2,将文档的全部内容,包括物理版式信息,逻辑结构信息等以XML格式进行表达。提出了将文档版面元素包含的复杂信息按一系列XML标签及其属性方式进行组织的方案,实现了支持中日英等多语种的全信息结构化XML文档格式定义。并开发了表格逻辑结构组装等提取版面信息的相关技术。
3,研制了还原显示版面的XSL脚本。脚本利用HTML 4技术控制浏览器的显示,在IE浏览器中能够获得很好的显示效果。
利用以上技术,我们实现了一个版面复原系统。该系统以THOCR软件的输出结果为基本依据,补充识别其遗漏的部分版式信息,以结构化的组织方式存放所有版面信息,并能够准确还原显示。该系统在数字图书馆建设,文档自动数字化,跨平台应用等方面都具有广阔的应用前景。
Layout reconstruction is an important procedure in document digitalization. In this thesis, a hiberarchy hi-fi layout reconstruction system is realized with the help of structured-tab organization supporting of XML (eXtensible Markup Language). The main results are listed as follows:
(1) An investigation has been carried out in order to solve the problem in the layout reconstruction area, especially the font recognition problem. A algorithm to identify the font through texture feature of multiple characters is realized, and is compared with a algorithm based on wavelet feature of single character. The later one is applied in the layout reconstruction system with the capability of identifying 7 Chinese fonts and 2 Japanese fonts.
(2) All the information within the layout, including both physical layout info and logical layout info is described in an XML format. A format of recording all the info by a series of XML tabs and their attributes is proposed, which can describe a multi language holography structured document.
(3) A XSL script used to show the page in browser is developed. The script can gain a perfect visual effect through HTML 4 in IE.
We realized a system through all the technology mentioned above. The system can reconstruct the layout correctly by using not only the output of THOCR but also some additional info. The system may be widely used in digital library, automatic digitalization of documents, etc.
目录
摘要.............................................................. I
Abstract ......................................................... II
第一章 引言 ....................................................... 1
1.1 版面复原的意义 ..............................................1
1.2 版面复原技术现状 ............................................2
1.2.1 字体识别技术现状 ......................................2
1.2.2 版面信息复原技术现状 ..................................3
1.3 本文主要工作概述 ............................................5
1.4 论文的安排 ..................................................6
第二章 字体识别 ................................................... 7
2.1 基于多个字符纹理特征算法分析 ................................7
2.2 基于单个字符小波特征算法分析 ................................8
2.3 方案对比 ....................................................9
2.3.1 样本集介绍 .............................................9
2.3.2 对比实验 ..............................................13
2.3.3 噪声实验 ..............................................17
2.4 结论 .......................................................18
第三章 XML 版面复原文档格式的设计与实现 ........................... 20
3.1 区域属性介绍 ...............................................20
3.1.1 文字区域 ..............................................20
3.1.2 行属性 ................................................21
3.1.3 单字属性 ..............................................21
3.1.4 表格区域 ..............................................21
3.1.5 图片区域属性 ..........................................22
3.2 XML 格式设计 ...............................................22
3.3 整体流程 ...................................................23
3.4 XML 文档的实现 .............................................24
3.4.1 表格组装 ..............................................26
3.4.2 彩色文本区域的处理 ....................................29
第四章 版式重现 .................................................. 34
4.1 文字区域 ...................................................35
4.1.1 行定位方案 ............................................36
4.1.2 字定位方案 ............................................37
4.2 图片区域 ...................................................38
4.3 表格区域 ...................................................38
4.3.1 方案一 ................................................38
4.3.2 方案二 ................................................39
第五章 结束语 .................................................... 41
5.1 本文的研究成果 .............................................41
5.2 展望 .......................................................42
参考文献 ......................................................... 43
致谢与声明 ....................................................... 44
外文资料的调研阅读报告 ........................................... 45


论文文件预览:
共1文件夹,1个文件,文件总大小:4.33MB,压缩后大小:1.49MB

  • 毕业论文-基于XML技术的版面复原研究
  • doc毕业论文-基于XML技术的版面复原研究.doc  [4.33MB]

查看评论 已有0位网友发表了看法
  • 验证码: