求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

變更

前往: 導覽搜尋

语料库

增加 2,773 位元組, 2 年前
创建页面,内容为“{| class="wikitable" align="right" |- | style="background: #008080" align= center|  '''<big>语料库</big> ''' |- | File:08f790529822720ef87d9ed079cb0a46f21fab6…”
{| class="wikitable" align="right"
|-
| style="background: #008080" align= center|  '''<big>语料库</big> '''
|-
|
[[File:08f790529822720ef87d9ed079cb0a46f21fab6d.jpg|缩略图|居中|[https://i01piccdn.sogoucdn.com/ae413be0808ed686 原图链接][https://pic.sogou.com/pics?ie=utf8&p=40230504&interV=kKIOkrELjbgQmLkElbYTkKIMkrELjbkRmLkElbkTkKIRmLkEk78TkKILkbHjMz%20PLEDmK6IPjf19z%2F19z6RLzO1H1qR7zOMTMkjYKKIPjflBz%20cGwOVFj%20lGmTbxFE4ElKJ6wu981qR7zOM%3D_844253275&query=%E9%AB%98%E7%A3%81%E5%AF%BC%E7%8E%87%E6%9D%90%E6%96%99 来自搜狗的图片]]]
|-
| style="background: #008080" align= center|
|-
| align= light|
|}
'''语料库'''指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。
=='''简介'''==
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的[[语料]]。
=='''评价'''==
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。<ref>[https://baijiahao.baidu.com/s?id=1724032158316281727&wfr=spider&for=pc 语料库]搜狗</ref>
=='''参考文献'''==
41,228
次編輯