[计算机应用] 中文文本自动校队中的语料库技术研究_计算机应用论文

[计算机应用] 中文文本自动校队中的语料库技术研究

简介： 原文正如汤姆斯等人所说，语料库已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域，它正在对语言研究的许多领域产生愈来愈大的影响。1.1什么是语料库？语料库顾名思义就是存放语言材料的仓库或数据库。语料库（corpus; ...

请与管理员联系购买资料 QQ:5739126

原文

正如汤姆斯等人所说，语料库已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域，它正在对语言研究的许多领域产生愈来愈大的影响。
1.1什么是语料库？
语料库顾名思义就是存放语言材料的仓库或数据库。语料库（corpus; 或corpora，corpuses）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段，而建成的具有一定容量的大型电子文库。从其本质上讲，语料库实际上是通过对自然语言运用的随机抽样，以一定大小的语言样本代表某一研究中所确定的语言运用总体。作为一种语言学研究方法，语料库及索引（concordancing）早在十八世纪就在欧洲得到了应用。当时的语料库大多以手工方法收集，其索引和分析过程也都是通过手工进行的，极为耗时费力。到了十九世纪，语料库方法在语言学研究中继续得到运用，基于语料库的研究主要集中在词典编纂和语法研究方面。
近40年以来，语料库这个术语通常指以电子形式，并被广泛用于语言研究和语言工程。随着计算机功效的成倍增长，语料库在规模、多样性和使用方便等方面都发生了剧烈的变化。与此同时为了存放和加工语料库所拥有的信息，已经开发了大量专业软件。
1.2 语料库的发展历史
语料库语言可以追随到上个世纪，现在一般以乔姆斯基（N.Chomsky）转换生成语法的兴衰史为参照点，将语料库的发展历史分为如下三个时期：
1.2.1 早期的语料库
早期的语料库是指20世纪50年代中期以前，即以乔姆斯指出转换生成语法理论之前所有基于语言材料的语言研究。50年代，语料库在语言研究中曾被广泛使用，主要集中体现在几个方面：语言习得、方言学、语言教学、句法和语意、音系研究。
......

不存在

参考资料

[1] 易蓉湘，何克抗 “计算机汉语文稿校对系统” 计算机研究与发展 1997.5.Vol 34.No5。
[2] 许嘉璐 “中文信息处理技术现状及相关语言文字研究” 软件世界 1996.4 P13-20.
[3] 刘晶茹、王开铸 “中文文本自动校对技术研究及系统组成” 电脑学习 1999年12月。
[4] 翁富良等 “计算语言学导论” 中国社会科学了版社 1998年9月第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外语教育出版社 1999。
[6] 张仰森、丁冰青 “中文文本自动校对技术现状及展望” 中文信息学报 1998第3期。
[7] 黄昌宁等 “语料库语言学” 中国计算机用户 1990.11。
[8] 张磊、周明、黄昌宁、潘海华 “中文文本自动校对” 语言文字应用 2001 第1期。
[9] 黑马编校系统 http://www.bjhm.com.cn/ 。
[10] 语言文字规范 http://romanzj.myetang.com/index/zlcx03.htm
[11] 基于语料库和面向统计学的自然语言处理技术介绍
http://www.lforums.com/html/11/1113/947.htm
[12] 语料库北京语言大学 http://www.blcu.edu.cn/kych/H.htm
[13] Douglas Biber等著 “语料库语言学” 外语教学与研究出版社 2000年8月
[14] Jane Edwards “语言研究用电子语料库及相关资源通览” 1993
cogsci.Berkeley.edu/pub/CorpusSurvey.ascii
[15] Michael Barlow 博士语料库语言学
http://www.ruf.rice.edu/~barlow/corpus.html
[16] Georgetown 电子文本工程通目(CPET)
gopher.georgetown.edu
[17] 语言学数据集团（LDC） http://www.ldc.upenn.edu/
[18] 牛津文库（OTA） http://sable.ox.ac.uk/ota/
[19] LOB语料库的详细说明 http://www.hd.uib.no/icame/lob/lob-dir.htm#lob1
[20] 共时语料库 http://www.ling.upenn.edu/mideng/
[21] Yukio Tono 语料库语言学 http://www.lb.u-tokai.ac.jp/tono/index_f.html

简单介绍

语料库语言学是当代计算机学语言学中经验主义论取得显著成效从而在计算机语言学领域占有一定的优势地位的新学科方向。语料库是自然语言处理领域的基础性资源，因此语料库建设和研究就成为计算机语言学的重要工作之一。本文是研究中文文本中语料库的建立与设计。我们采用手工或软件形式获得语料库，并用对语料库进行加工整理。

[计算机应用] 中文文本自动校队中的语料库技术研究

栏目导航

热门关键词

最新论文

随机论文