您现在的位置:网站首页答辩论文计算机毕业设计计算机论文计算机应用论文

[计算机应用] 基于互信息的中文文本自动查错

  • 简介: 原文 1.1 问题提出 校对(proofread)是报刊、图书、新闻出版工作中的一个重要环节,主要任务是根据原稿核对校样,订正差错,保证出版刊物的质量。但是现阶段大部分文本校对工作还是传统的人工方式,不能胜任浩如烟海的文本校对工作,迫切需...
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
  原文

1.1 问题提出
校对(proofread)是报刊、图书、新闻出版工作中的一个重要环节,主要任务是根据原稿核对校样,订正差错,保证出版刊物的质量。但是现阶段大部分文本校对工作还是传统的人工方式,不能胜任浩如烟海的文本校对工作,迫切需要借助计算机技术实现中文文本的自动校对。
1.2 研究状况及方法
当前国内有不少单位进行中文文本自动查错理论和技术的研究并取得一定的成效,主要的研究状况和方法如下:
1.2.1 基于规则的查错方法
① 师范大学运用校正文法规则对文稿进行校对;
② 哈尔滨工业大学对句子进行三遍扫描,用短语规则逐步把正确的字串捆绑起来,将剩余的不能捆绑的字串判断为错误。
1.2.2 基于统计的查错方法
① 东北大学提出了一种混合文本校对方法HMCTC,即“模式匹配+类3元语法+语法属性”;
② 清华大学利用语料库统计知识指导文本校对,将转移概率作为查错判断依据,把转移概率低于阈值的字或词作为查出的错误;
③ 北京大学计算机学院在对大规模语料库的统计分析基础上,构建了二字结构工程并引入人名,地名识别规则,利用词语类间的接续关系进行查错。
近年来,国内外已经陆续推出了若干商品化的中文文本自动校对工具,如黑马校对、金山校对、CIPOL文章校对、台湾的啄木鸟及WPS、Word中内嵌的中文文本自动校对模块,此类工具已经得到一定程度的应用。但是,它们的校对效果与用户的期望还有相当大的距离。所以,面向中文文本中的错误分析技术还有待于进一步的研究。
1.2.3 待校对文本常见错误分析
总结待校对文本中的常见错误类型并对各种类型错误的统计工作,有助于中文文本自动校对系统的研究和开发。通过对241个真实错误实例的人工分析,得到下列结果:
......


  目录

1. 概述
2. 基于互信息的自动查错方法
3.实验实例
4. 结论
5. 致谢
6. 参考文献
7. 附录


  参考资料

《基于词二元接续的中文文本自动查错的研究》
王虹 张仰森《贵州大学学报》(自然科学版)第18卷第1期
《基于二元接续关系检查的字词级自动查错方法》
张仰森 丁冰青《中文信息学报》第15卷第3期
《中文信息处理与现代汉语研究》
许嘉璐 中国语文2000年第6期(总第279期)
《语料库语言学》黄昌宁 李涓子 商务印书馆 2002年4月第1版


  简单介绍

本文介绍有关互信息的概念和理论,讨论了从语料库提取汉字互信息的方法,并且构造了基于汉字互信息的中文文本自动查错算法,将算法编写程序调试通过,给出了部分查错实例。

查看评论 已有0位网友发表了看法
  • 验证码: