正如汤姆斯等人所说,语料库已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 1.1什么是语料库? 语料库顾名思义就是存放语言材料的仓库或数据库。语料库(corpus; 或corpora,corpuses)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段,而建成的具有一定容量的大型电子文库。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体。作为一种语言学研究方法,语料库及索引(concordancing)早在十八世纪就在欧洲得到了应用。当时的语料库大多以手工方法收集,其索引和分析过程也都是通过手工进行的,极为耗时费力。到了十九世纪,语料库方法在语言学研究中继续得到运用,基于语料库的研究主要集中在词典编纂和语法研究方面。 近40年以来,语料库这个术语通常指以电子形式,并被广泛用于语言研究和语言工程。随着计算机功效的成倍增长,语料库在规模、多样性和使用方便等方面都发生了剧烈的变化。与此同时为了存放和加工语料库所拥有的信息,已经开发了大量专业软件。 1.2 语料库的发展历史 语料库语言可以追随到上个世纪,现在一般以乔姆斯基(N.Chomsky)转换生成语法的兴衰史为参照点,将语料库的发展历史分为如下三个时期: 1.2.1 早期的语料库 早期的语料库是指20世纪50年代中期以前,即以乔姆斯指出转换生成语法理论之前所有基于语言材料的语言研究。50年代,语料库在语言研究中曾被广泛使用,主要集中体现在几个方面:语言习得、方言学、语言教学、句法和语意、音系研究。 ...... |