中国语料库研究的历史与现状(一)
详细内容
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科――语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况
现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注,正确率为 77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。
现在,国外的主要语料库还有:
London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。
AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。
OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10亿字节。
BNC英国国家语料库(British National Corpus):1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用标准置标语言的国际标准(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。
ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(The association for putational Linguistics, ACL)倡议的数据采集计划(Data Collection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。
LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。
RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。
亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。
为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。TELRI 是跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure )的首字母缩写,John Sinclair担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,现已经建成柏拉图(Plato)的《理想国》(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR (Research Archive of putational Tools and Resources),正在语料库的基础上建立欧洲语言词库EUROVOCA。TELRI每年召开一次Seminar 。最近的一次Seminar在Lubljana, (Slovenia)召开(22.September ? 26.September.2000),主题是从语料库中自动抽取知识(Automatic knowledge extraction)。ELRA是欧洲语言资源学会 (European Language Resources Associationi)的首字母缩写,由Zampolli担任主席, ELRA负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA (European Language resources Distribution Agency),负责研制并推行ELRA的战略和计划。ELRA还组织语言资源和评价国际会议LREC (Language Resources & eva luation Congress), 每两年一次。第一次会议于1998年在西班牙的Grenade举行;第二次会议在Athens(Greece)召开(31.May ? 02.June.2000),第三次会议于2002年在西班牙的Las Palmas de Gran Canaria 召开(27.May ? 02.June 2002)。
二、我国语料库的发展概况
(一)早期的汉语语料库
1、我国语料库研究的先河
在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括P.克仑茨(Pastor P. Kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。
陈鹤琴用的语料分如下六类:
儿童用书:127,293字;
报刊(以通俗报刊为主):153,344字;
妇女杂志:90,142字;
小学生课外作品:51,807字;
古今小说:71,267字;
杂类:60,625字。
书末附有“字数次数对照表”,这是按汉字在语料中出现的绝对频率排列的字表。
我国著名教育家陶行知先生为《语体文应用字汇》写了序言。序言中说:“他们(指“近代教育家”)对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。他们的主张是要所学的,即是所用的。......到了后来他们连学生学的字也要审查起来了。学生现在所学的字,个个字都是有用的字吗?自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本《语体文应用字汇》。这册报告未付印以前已经做了《平民千子课》用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备,但我想这本字汇对于成人及国民教育一定是有很大的贡献的。”(见陈鹤琴《语体文应用字汇》,商务印书馆,1928年)。
2、早期的机器可读语料库
从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979年),527万字,武汉大学。
现代汉语语料库(1983年),2000万字,北京航天航空大学。
中学语文教材语料库(1983年),106万8千字,北京师范大学。
现代汉语词频统计语料库(1983年),182万字,北京语言学院。
我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。
1979年,北京语言学院(现在改名为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。
这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。
他们选取的语料可以分为如下四类:
报刊政论:44万字,占语料总量的24.4%。
科技和科普文章:29万字,占语料总量的19.8%。
口语材料:20万字,占语料总量的11.1%。
文学作品:89万字,占语料总量的48.7%。
整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。
根据数理统计的原理,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。
但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。
这次词频统计得出了如下词表:
1、按字母音序排列的频率词表:共列出常用词16,593个,按音序排列,从中可以看出:
汉语中以Z、S、J、Y开头的词较多:以Z开头的词有1457个,占8.78%;以S开头的词有1327个,占7.99%;以J开头的词有1243个,占7.49%;以Y开头的词有1205个,占7.26%。
汉语中以E、O开头的词很少:以E开头的词只有64个,占0.38%;以O开头的词只有13个,占0.07%。
2、按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前100个词占了语料总量的40%以上,前500个词占了语料总量的70%以上,前2562个词占了语料总量的85%,词表共有不同单词31,159个,这些词占了语料总量的100%。从前100个词到前500个词,不同的单词数增加了400个,百分比就增加了30%,而从前2562个词到前31,159个词,不同单词数增加了30,597个,百分比材增加了15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。
3、按使用度递降顺序排列的词表:
使用度是1954年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数学公式,根据这个使用度公式计算出的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。
他们根据使用度的计算公式,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前8000词的词表,使用度较低的词语单位表。
在使用度较高的前8000词的词表中,使用度在20以上的词共4186个,其词次累计占了全部语料(314,404词次)的90.1%。这说明,《现代汉语频率词典》所统计的语料中,有十分之九是用这4186个词写成的,这些词可以成为“常用词”的候选对象。
在使用度较低的词语单位表中,收入了使用度为5及小于5的词22,446个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。
4、按语体分类的高频词表,又可再分为4个表:
a.报刊政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不同词条数12,107个。前4000个词累计频率94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。
b.科普语体的前4000词的词表:本表共统计21种语料,20万词次(29万字),有不同词条12,364个。前4000个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。
c.生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。
d.文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。
早期的这些语料库的具有如下特点:
①多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,著名专家刘源教授(北京航空航天大学计算机系教授)在2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。
②发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(Ambiguous Segmentation Strings, ASSs):交集型歧义字段和多义组合型歧义字段。
交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。
多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。
梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个, 多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。
③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。
(二)国家级语料库的建设
1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:
①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。
②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。
③使用领域的限制: 语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。
这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。
为了加工这个国家级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分10个子课题:
①信息处理用现代汉语分词词表
②歧义切分与专有名词识别软件
③词的构造研究
④现代汉语词类及标记集规范
⑤汉语词类兼类研究
⑥现代汉语的语法属性描述研究
⑦现代汉语述语动词机器词典和槽关系研究
⑧汉语知识词典建立及词汇内部语义网络描述研究
⑨汉语文本短语结构的人工标注
⑩常用动词语义特征及词义搭配研究
现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对国家级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。
(三)大规模真实文本语料库
1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学,上海师范大学,北京邮电大学,香港城市理工大学,东北大学,哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处)。下面分别加以介绍。
1、《人民日报》光盘数据库
收集该报48年的全部文字和图像内容,公开发行。
2、北京大学计算语言学研究所
该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。
示例1:古城/n 虽/c 遭/v 破坏/v ,/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ,/w 特别/d 是/v 汉族/nz 劳动/vn 人民/n 共同/d 开拓/v 祖国/n 北疆/s ,/w 创造/v 我国/r 历史/n 文明/n 的[de5]/u 足迹/n 。/w
示例2:19970310-01-002-0020/m [全国/n 人大/j]nt 代表/n 、/w [陕西/ns 西安/ns 美术/n 学院/n]nt 名誉/n 院长/n 刘/nr 文西/nr 利用/v 会议/n 休息/vn 时间/n 创作/v 了/u 邓/nr 小平/nr 画像/n 《/w 与/p 人民/n 同/d 在/v 》/w 。/w 画像/n 表现/v 了/u 邓/nr 小平/nr 同志/n 祝愿/v 祖国/n 繁荣/a 、/w 人民/n 幸福/a 的/u 伟大/a 胸怀/n 。/w (/w 新华社/nt 记者/n 齐/nr 铁砚/nr 摄/v )/w
示例3:19970310-01-003-0020/m 世纪/n 之/u 交/Ng ,/w 中华/nz 民族/n 正/d 迎来/v 前所未有/i 的/u 发展/vn 机遇/n 。/w 十几/m 年/q 来/f ,/w 改革/v 开放/v 的/u 不断/d 深入/v ,/w 党/n 的/u 民族/n 政策/n 的/u 贯彻/vn 落实/vn ,/w 全国/n 人民/n 的/u 大力/d 支援/v ,/w 使/v 我国/r 民族/n 地区/n 经济/n 和/c 社会/n 发展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍视/v 和/c 继续/vd 发展/v 这种/r 好/a 的/u 局面/n ,/w 巩固/v 发展/v 各/r 民族/n 大/a 团结/an ,/w 成为/v 全国/n 各族/r 人民/n 的/u 共同/b 愿望/n ,/w 也是/v 在/p 京/j 参加/v “/w 两会/j ”/w 的/u 代表/n 和/c 委员/n 的/u 一致/a 心愿/n 。/w
经富士通公司检验,标注的正确率很高。
他们制订《现代汉语语料库加工手册――词语切分与词性标注》。切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。他们采用切分和标注相结合的原则来建立规范,在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在该规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。在标注规范中,规定了一般词性的标注规范和专有名词的规范。
此外,他们还建立了一个小型汉语树库:与新加坡国立大学计算机系合作,内容为新加坡中学语文教材(1995年),所有的句子都分析为树形图。
示例:
[zj [dj 富士山/n [vp 是/v [np 日本/n 的/u [np [mp 一/m 座/q ] 活火山/n ]]]] 。/w ] [zj [fj [fj [dj 山峰/n [vp 终年/d 积雪/v ]] ,/w [dj 云雾/n 围绕/v ]] ,/w [vp 只有/d [vp [pp 在/p [np [dj 空气/n 干燥/a ] 的/u [np [np 秋/n 冬/n ] [np 两/m 季/Ng ]]]] ,/w [vp 才/d [vp 能/v [vp [vbar 看/v 清/a ] [np 它/r 的/u 全貌/n ]]]]]]] 。/w ]
[zj [fj [dj [np [vbar 多/d 变/v ] 的/u 气候/n ] ,/w [vp 更/d [vp [pp 为/p 它/r ] [vp [vbar 增添/v 了/u ] [np 神秘/a 的/u 色彩/n ]]]]] ,/w [vp 甚至/d [vp 使/v 它/r [vp [vbar 孕育/v 了/u ] [np 许多/m [np 美丽/a 的/u 神话/n ]]]]]] 。/w ]
[zj [dj [np 富士山/n 的/u 景色/n ] ,/w [dj 四季/t 不同/a ]] 。/w ]
[zj [fj [fj [fj [fj 春天/t ,/w [fj [dj 山顶/s [vp 还/d [vp [vbar 戴/v 着/u ] [np 雪/n 帽子/n ]]]] ,/w [fj [dj [dj [np 山腰/n 的/u 雪/n ] [vp 却/d 溶化/v ]] 了/y ] ,/w [fj [dj [np 细碎/a 的/u [np 小/a 花/n ]] [vp 开遍/v 山坡/n ]] ,/w [vp [vbar 远/a 看/v ] [vp 象/v [np [mp 一/m 片/q ] [np 紫色/n 的/u 海洋/n ]]]]]]]] ,/w [fj 夏天/t ,/w [fj [dj [np [np 残/Vg 雪/n ] 与/c [np 山/n 花/n ]] [vp 倒映/v [sp 湖/n 中/f ]]] ,/w [vp 充满/v 诗情画意/n ]]]] ,/w [fj 秋天/t ,/w [fj [dj [np [np [np 满/a 山/n ] 红叶/n ] 与/c [np 雪/n 影/Ng ]] 辉映/v ] ,/w [vp 象/v [np 个/q [np 娇羞/a 的/u 姑娘/n ]]]]]] ,/w [fj [dj 冬天/t [dj 则/c [vp 是/v [np [ap 纯/a 白/a ] 的/u [mp 一/m 片/q ]]]]] ,/w [ap 庄严/a 而/c 圣洁/a ]]] 。/w ]
北大语料库研究的特色是:
①规模大:加工成的熟语料已经达到2000万字,不久将达到2700万字,国内尚无先例。
②加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库。在大规模的语料库中,地名和专有名词都进行了短语结构标注。
③覆盖面广:人民日报的语料不仅包括新闻,还包括各种题材、各种风格、各种语体的文章,涉及社会科学和自然科学多种领域,有很广泛的覆盖面。
④正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合的策略,是语料库加工的正确率达到了国内最高水平,在国际上也是罕见的。
⑤无著作权纠纷:与《人民日报》达成协议,没有著作权问题。