语料库查看源代码讨论查看历史

语料库
原图链接来自搜狗的图片

语料库指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。

简介

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型：⑴异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；⑵同质的（Homogeneous）：只收集同一类内容的语料；⑶系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；⑷专用的（Specialized）：只收集用于某一特定用途的语料。

评价

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。已经累积了大量各种类型的语料库，如：葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据（OpenSubtitles Corpus）、《圣经》双语语料库（"Bible" bilingual corpus）、Short messages service(SMS) corpus（短消息服务（SMS）语料）等。^[1]

参考文献

↑ 语料库搜狗

[1] 语料库搜狗

[1]

语料库查看源代码讨论查看历史

目录

简介

评价

参考文献