變更

較新編輯 →

语音

增加 19,509 位元組, 4 年前

创建页面，内容为“{{Infobox person | 姓名 = '''语音''' | 图像 = File:语音.png|缩略图||center|[http://img95.699pic.com/element/40030/6418.png_860.png 原图…”

{{Infobox person
| 姓名 = '''语音'''
| 图像 =
[[File:语音.png|缩略图||center|[http://img95.699pic.com/element/40030/6418.png_860.png 原图链接] [https://699pic.com/tupian-400306418.html 来自摄图网]]]
}}
'''<big>语音</big>'''，即语言的物质[[外壳]]，是[[语言符号]]系统的[[载体]]。它由人的发音器官发出，[[负载]]着一定的语言意义。语音的物理基础主要有[[音高]]、[[音强]]、[[音长]]、[[音色]]，这也是构成语音的四要素。<ref>[http://sf1.fengyunpdf.com/audioconverter?ver=ty-1048 文字转语音软件_语音文字互转_精准识别_2020全新版_语音转换文字软件]</ref>

==概述==

语音，是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中，语音是第一属性，人类的语言首先是以语音的形式形成，世界上有无文字的语言，但没有无语音的语言，语音在语言中起决定性的支撑作用。

语音即语言的声音，是语言符号系统的载体。它由人的发音器官发出，负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统，语言的声音和语言的意义是紧密联系着的，因此，语言虽是一种声音，但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音，不能把语音看成纯粹的自然物质；语音是最直接地记录思维活动的符号体系，是语言交际工具的声音形式。

语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。音高指声波频率，即每秒钟振动次数的多少；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为"时长"；音色指声音的特色和本质，也称作"音质"。<ref>[http://soft1.fengyunpdf.com/audioconverter?ver=zx-87 语音在线生成-语音文字互转精准识别神器!_文字转换语音在线]</ref>
人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分：
[[File:语音1.jpg|缩略图]]
（1）呼吸器官，包括肺、气管和支气管。肺是呼吸器官的中心，是产生语音动力的基础。

（2）喉头和声带，它们是发音的振颤体。

（3）口腔、咽腔、鼻腔，它们都是发音的共鸣器。

语音和语义的联系是人们在长期的语言实践中约定的，这种音义的结合关系体现了语音有重要的社会属性。

==语音软件==

'''技术水平'''

智能语音技术主要包括语音合成技术、语音识别技术、语音评测技术等，行业主要的技术水平如下：

（1）语音合成技术
[[File:语音2.jpg|缩略图]]
语音合成技术是指通过机器自动将文字信息转化为语音的技术，相当于给机器装上了人工嘴巴。

评价语音合成技术水平的主要指标是计算机合成语音的自然度和可懂度。可懂度是指计算机合成语音能否让用户听懂，这是该技术能否应用的必要条件。自然度是指计算机合成语音的自然、流畅程度，表示的是机器发音与自然发音之间的差距。

（2）语音识别技术

语音识别技术是指通过机器自动将语音信号转化为文本及相关信息的技术，相当于给机器装上了人工耳朵。

语音识别技术主要的技术评价指标包括：识别内容限制（连续语流还是命令词）、识别词语容量、识别正确率、识别使用人员限制（针对特定人还是普适所有人）、使用者口音适应能力、抗环境噪声能力。按照最为重要的指标识别内容限制进行划分，语音识别技术可分为大词汇量连续语流识别技术和命令词语音识别技术。命令词语音识别技术作为现在应用最为广泛的语音识别技术，按照应用场景和核心性能可分为电话命令词语音识别技术和嵌入式命令词语音识别技术。

（3）语音评测技术

语音评测技术是指通过机器自动对语音进行发音水平评价、检错，并给出纠正指导的技术。

语音评测技术的评价指标包括：评测内容限制（固定文本还是自由表述）、发音评分误差和一致率、发音错误检出率、发音人自身特点（小学生、中学生还是成人）、发音人背景影响（母语背景，方言还是外语）、语种支持（汉语、英语）等。国内从2002年初开始进行语音评测技术的跟踪和探索性研究，目前已经可以很好的实现对文本朗读的普通话评测工作，对于自由发言的发音评测是下一阶段评测技术发展的一个方向。对于发音的评分，国家的普通话评测标准分为三级六等，总分100分制。2005年9月，在国家普通话测试中心和教育部语信司组织的现场测试中，科大讯飞的普通话水平自动评测系统和3个测试员同时对参加普通话等级考试的考生进行现场测试。在总分评定上，计算机误差1.752分小于评测员的1.788分，在等级测定上，计算机79.4%的一致率非常接近于评测员79.8%的一致率。其结果表明当时的计算机口语测试准确程度已经达到了省级测试员的测试水平。针对中国人学习英语的评测技术，也是近年来研究界和产业界关注的重点，目前科大讯飞和中国科学院自动化所均已取得了较好的研究成果，初步达到了对中小学生英语口语评价的需要。
[[File:语音3.jpg|缩略图]]
语对不同母语背景的汉语学习者提供普通话发音评测并予以指导的软件和网站已经出现，例如www.iflylanguage.com，可以在单字、单词、句子的层面上对方言区（香港）和外国人的汉语发音进行评测和辅助教学。

'''语音软件行业经营模式'''

软件行业的经营模式主要有三种：

销售软件使用授权许可，按用户的使用数量收费；
软件系统销售，通常是一次性销售；
软件运营或提供软件系统与第三方（如电信运营商）合作运营,从运营收益中获得分成收入。
总体来讲，前两种经营模式是国内软件厂商主要盈利模式，第三种经营模式近年来随着网络游戏和电信增值业务的发展而逐渐兴起，因其具有持续稳定收入来源而更具经营优势。

折叠语音软件行业区域性、季节性、周期性分析
软件行业与传统行业相比具有鲜明的特点，主要表现在软件产品可低成本、无限制复制，产品提供商可变成本很小。因此，行业的区域性、季节性和周期性主要取决于客户需求的特点。

区域性：语音支撑软件主要提供给各行业二次开发商，他们主要集中在北京、深圳、上海等经济、科技发达城市；语音行业应用软件客户也主要集中在各省会城市和沿海经济发达地区，呈现出一定区域性特点。
季节性：本行业季节性特点主要表现在客户需求的季节性变化上。电信级语音平台产品最终用户是电信、银行、证券等行业客户。由于这些大行业客户在项目建设上普遍具有上半年规划论证、下半年实施的特点，因此，在该领域的收入普遍存在下半年高于上半年的情况。
[[File:语音4.png|缩略图]]
在嵌入式终端软件方面，由于学习机、电子词典、电脑终端软件的销售都有寒促和暑促的季节性，且一般暑假和新学期开学时数量较大，因此导致每年学校寒、暑假前后销量较大，且下半年销售比上半年多的特点。总体来看，语音应用产品的销售收入通常下半年高于上半年。
周期性：本行业的发展依托于国家信息化建设和国民经济的整体发展。目前国家信息化建设持续发展，经济平稳快速增长，市场对于语音技术应用的需求日益强烈，特别是在北京奥运会和上海世博会等利好因素的带动下，语音产业未来几年内将保持快速稳定增长，周期性变化不明显。

==要素==

'''音高'''

所谓的音高，就是指各种不同高低的声音，即音的高度，音的基本特征的一种。音的高低是由发音体的振动频率决定的，两者成正比关系：频率振动次数多则音"高"，反之则"低"。

声音的高低。由音波振动的频率来决定。频率高则音高；低则音低。音高是构成语音的要素之一。汉语里音高变化有区别词义的作用，如“妈”、“麻”、“马”、“骂”四个字的声调不同，即音高的不同。
音乐声学术语。指听觉赖以分辨乐音高低的特性。

'''音强'''

音强，又称音量，即音的强弱（响亮）程度。音的基本特性的一种。音的强弱是由发音时发音体振动幅度（简称振幅）的大小决定的，两者成正比关系，振幅越大则音越"强"，反之则越"弱"。

'''音长'''

音长是指声音的长短，它决定于发音体振动时间的久暂。发音体振动持续久，声音就长，反之则短。
[[File:语音5.jpg|缩略图]]
'''音色'''

音色指音的感觉特性。频率的高低决定声音的音调，振幅的大小决定声音的响度但不同的物体发出的声音我们还是可以通过音色分辨不同发生体的材料、结构不同，发出声音的音色也就不同。音色是声音的特色，根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人声发出的。同样的音量和音配上不同的音色就好比同样色度和明度配上不同的色相的感觉一样。

音色的不同取决于不同的泛音，每一种乐器、不同的人以及所有能发声的物体发出的声音，除了一个基音外，还有许多不同频率的泛音伴随，正是这些泛音决定了其不同的音色，使人能辨别出是不同的乐器甚至不同的人发出的声音。每一个人即使说话也有不同的音色，因此可以根据其声音辨别出是不同的人。原创

==特点==

语音跟其他各种各样声音的区别有三点：

第一，是由人的发音器官发出来的；

第二，不同的声音代表了不同的意义；
[[File:语音6.jpg|缩略图]]
第三，其作用在于社会交际。其中最主要的区别就在于：语音代表了一定的语义，是它的“社会性”。

==语音性质==

首先语音具有物理属性，它跟自然界的一切声音一样，是一种物理现象；其次具有生理属性，它是人的生理发音器官发出来的；再次它具有社会属性，语音有表义功能，这种功能是社会赋予的。

'''物理性质'''

一切声音都是由物体的振动发出的，物体振动，振荡它周围的空气，形成音波，音波扩散，刺激到人的听觉神经，人就听到了声音。任何声音都是由音高、音强、音长、音色四种要素组成的，语音也是如此。

1、音高

声音的高低。它决定于音波的频率，即发音体在每秒钟内振动的次数。振动的次数多，频率大，声音就高，反之就低。而频率的大小和发音体 (声带)的长短、厚薄、松紧有关。声带短、薄、紧，发音时音频就大，声音就高，反之就低。弦乐器，弦细而短，音高；弦粗而长，就低。女人、儿童的声带每秒可振动150—300次，成年男子每秒60—200次。一个人情绪激动时声音高，情绪低落时声音低。一个人声音的高低是靠控制声带的松紧来调节的。
[[File:语音7.png|缩略图]]
汉语的声调和语调主要是由音高决定的。如：妈、麻、马、骂、吗，衣、移、椅、意。“是他 ?”“是他。”

2、音强(音量、音势、音重）

声音的强弱。它与音波振幅的大小成正比。振幅：发音体振动幅度的大小，即气粒子离开平衡位置最大的偏移度，与气压的大小成正比。语音的强弱取决于说话时用力的大小，用力大，呼出的气体对声带冲击力强，振幅大，声音就强，反之就弱。比如一根胡琴的弦长度不变，用力拉，声音强；轻拉，声音就弱。击鼓：使劲，鼓声强；反之，鼓声弱。

音强在汉语里有区别词义的作用和一定的语法作用，轻声、重音可以区别意义，主要是音强决定的。如：报告——报告、练习——练习、地道——地道、莲子——帘子、报仇——报酬，加点的字读轻声，前后词义不相同。一句话的逻辑重音放在不同的位置上，表达的语意焦点是不同的。如 ?我今天下午去南京。?重音分别放在“我、今天、下午、南京”上，表达意思是不同的。

3、音长

声音的长短，它决定于发音体振动时持续时间的久暂。振动时间长，声音就长，反之就短。

音长在一些语言里可以区别意义。如英语的 eat、it。广州话：三[sa:m]、心[sam]。普通话“啊”音短则表应答、惊讶，音长则表沉吟、迟疑、感叹。

4、音色(音质、音品)

声音的特色、个性，也可以说是声音的本质。它是由音波波纹的曲折形式不同造成的，是一个音素区别于其他音素的基本特征。
[[File:语音8.jpg|缩略图]]
造成不同的音色的条件主要有以下三种：

a、发音体不同。如管乐器，弦乐器，打击乐器发音体都不一样。笛子和二胡同奏一个曲子，人们可以分辨出哪是笛子的声音，哪是二胡的声音，笛子的发音体是笛膜，二胡的发音体是蟒皮，而人类的发音体是声带。

b.发音方法不同。同是弦乐器，手弹和弓拉发音不同。塞音、擦音、塞擦音发音方法也不同。

c.共鸣器的形状不同。共鸣：又叫共振，一个静止的发音体，遇到一个频率与之振动频率相同或相近的声音时，会受到感染而发音，这种现象叫共鸣。这个受感染而振动的发音物体，叫共鸣器。乐器、人类的发音器官都是以空腔作共鸣器的。笛子和箫发音不同主要是因为共鸣器不同，同一把音叉插在不同的共鸣箱上，打击时发音不同。b 从口腔出气，m 从鼻腔出气，口腔和鼻腔形状不同，[а]、[ i ]发音不同也是因为口腔形成的共鸣器的形状不同。口吹唢呐时以两手开合作拱状，也是在改变共鸣器的形状，以形成不同的声音。

每个人说话的声音不同主要是音色不同造成的。各人声带的长短、松紧、厚薄不同（发音体），各人的口腔、鼻腔的大小形状不同（共鸣器），各人的说话时用气的强弱、运气的方法、口腔舌头控制的情况等不同（发音方法），从而形成了各人的声音特色，这正像乐器的音乐一样。

'''生理性质'''

人的发音器官可分为三大部分：①肺、气管、支气管——动力部分。肺呼出的气体，通过支气管、气管到达喉头，振动声带，从而发声。②声带——发音体。声带是位于喉头中间的两片薄膜，气流从肺部呼出，通过声门，冲动声带颤动发音。每个人声带的厚薄、松紧、大小、长短是不相同的，这是每个人说话声音不同的原因之一。③口腔和鼻腔——共鸣器。每个人口腔和鼻腔的形状、大小都有差别，这也是每个人说话声音不同的原因之一。口腔中的软腭和小舌，是控制口腔和鼻腔的“阀门”。软腭、小舌下降，压在舌根上，发音时鼻腔产生共鸣，如 m、n、ng，这些音叫鼻音。软腭、小舌上升，堵塞鼻腔，发音时口腔产生共鸣，如a、o、e、i等，这些音叫口音。辅音中的口音和鼻音共有七组：

双唇配合，可发出 b、p、m ，3个辅音，叫双唇音；上齿与下唇配合，可发出 f ，1个辅音，叫唇齿音；舌尖与上齿背配合，可发出 z、c、s ，3个辅音，叫舌尖前音；舌尖与上齿龈配合，可发出 d、t、n、l，4个辅音，叫舌尖中音；舌尖与硬腭前部配合，可发生 zh、ch、sh、r ，4个辅音，叫舌尖后音；舌面与硬腭配合，可发出 j、q、x ，3个辅音，叫舌面音；舌根与软腭和小舌配合，可发出g、k、h、ng ，4个辅音，叫舌根音。
[[File:语音9.jpg|缩略图]]
元音都是口音。改变口腔这个共鸣的形状，可以发出不同的元音。改变口腔的方法主要有三种：舌位的前后、高低，即口腔的开闭，唇形的圆或不圆。

'''社会性质'''

语音有表义功能，使得语音区别于自然界的其他声音，因此语音的社会性质是它的本质属性。语音这一属性表现在以下方面：

音义结合的固定性。什么声音表示什么意义，如何表示，是由使用某一语言的社会成员决定的。即：语言的“能指”和“所指”是由社会决定的。如gōngshì两个音节可以表示公事、工事、公式、攻势、宫室，tǔ dòu(土豆)、mǎ líng shǔ （马铃薯）表示同一事物，这些音义的结合都是说汉语的人约定俗成的。

语音的系统性。音位、音位的个数、音位的组合，各种语言、方言都有自己的系统。从物理、生理属性上看是相同的语音现象，但在不同的音系中表义不同。如 n、1 在某些汉语方言的语音系统中是一个音位，“女客”“旅客”同音。汉藏语系的语言大都有声调，送气或不送气在汉语里可以别义，英语不能。park、student 中的 p、t 读成送气音或不送气音，只是听起来不地道，并没有区别意义。而汉语的 t、d 则可以区别意义。原创

==普通话语音==

普通话有410个不分声调的音节，大约1200个声调有别的音节，如果拿普通话按同一个声调(等同于没有声调的普通话，410个语音种类)说话，则人们根本无法听得明白这样的“普通话”，所以，410个语音种类是不可以支撑起普通话所使用中的现有数量的汉字的。按不同声调所说的普通话(1200个语音种类)在非精细表达的场合却能几乎毫无障碍地听辩出来，而在精细表达的场合比(如读唐诗宋词)则普通话几乎不具备可听性，而精细场合与非精细场合所使用的汉字数量正好不相同，这清楚无误地说明普通话这种语言的语音系统不具备支撑整个汉语汉字系统的能力。不论是汉语的任何方言，它的语音系统所能支撑的汉字使用数量应该为其语音种类总数的3倍，其依据是：

一个最简单的标准句子包含主语、谓语和宾语三个成分，如果这三个组成成分中的每一个都出现同音混义则该句子必定不具备可听性。因为当一种汉语方言的汉字使用量是其语音种类总数的3倍时，平均每个语音必须承担3个不同的语义，分配到这个最简单的标准句子后就使主、谓、宾三者都出现的混义，这样使整个句子完全失去逻辑概念的惟一性，也就丧失了大脑纠错机制对同音混义的析解纠错能力，使说话不能被听者听明白。所以，可信的计算结果是：普通话这种汉语方言最多能支撑4500个汉字的使用量。

==參考來源==

{{Reflist}}

[[Category:390 人類學總論]]

LBT0930

巡檢員

101,672

次編輯