1.1 问题提出 校对(proofread)是报刊、图书、新闻出版工作中的一个重要环节,主要任务是根据原稿核对校样,订正差错,保证出版刊物的质量。但是现阶段大部分文本校对工作还是传统的人工方式,不能胜任浩如烟海的文本校对工作,迫切需要借助计算机技术实现中文文本的自动校对。 1.2 研究状况及方法 当前国内有不少单位进行中文文本自动查错理论和技术的研究并取得一定的成效,主要的研究状况和方法如下: 1.2.1 基于规则的查错方法 ① 师范大学运用校正文法规则对文稿进行校对; ② 哈尔滨工业大学对句子进行三遍扫描,用短语规则逐步把正确的字串捆绑起来,将剩余的不能捆绑的字串判断为错误。 1.2.2 基于统计的查错方法 ① 东北大学提出了一种混合文本校对方法HMCTC,即“模式匹配+类3元语法+语法属性”; ② 清华大学利用语料库统计知识指导文本校对,将转移概率作为查错判断依据,把转移概率低于阈值的字或词作为查出的错误; ③ 北京大学计算机学院在对大规模语料库的统计分析基础上,构建了二字结构工程并引入人名,地名识别规则,利用词语类间的接续关系进行查错。 近年来,国内外已经陆续推出了若干商品化的中文文本自动校对工具,如黑马校对、金山校对、CIPOL文章校对、台湾的啄木鸟及WPS、Word中内嵌的中文文本自动校对模块,此类工具已经得到一定程度的应用。但是,它们的校对效果与用户的期望还有相当大的距离。所以,面向中文文本中的错误分析技术还有待于进一步的研究。 1.2.3 待校对文本常见错误分析 总结待校对文本中的常见错误类型并对各种类型错误的统计工作,有助于中文文本自动校对系统的研究和开发。通过对241个真实错误实例的人工分析,得到下列结果: ...... |