語音檢視原始碼討論檢視歷史

語音
語音
	原圖鏈接來自攝圖網

語音( voice )，即語言的物質外殼，是語言符號系統的載體。它由人的發音器官發出，負載着一定的語言意義。語音的物理基礎主要有音高、音強、音長、音色，這也是構成語音的四要素。^[1]

概述

語音，是指人類通過發音器官發出來的、具有一定意義的、目的是用來進行社會交際的聲音。在語言的形、音、義三個基本屬性當中，語音是第一屬性，人類的語言首先是以語音的形式形成，世界上有無文字的語言，但沒有無語音的語言，語音在語言中起決定性的支撐作用。

語音即語言的聲音，是語言符號系統的載體。它由人的發音器官發出，負載着一定的語言意義。語言依靠語音實現它的社會功能。語言是音義結合的符號系統，語言的聲音和語言的意義是緊密聯繫着的，因此，語言雖是一種聲音，但又與一般的聲音有着本質的區別。語音是人類發音器官發出的具有區別意義功能的聲音，不能把語音看成純粹的自然物質；語音是最直接地記錄思維活動的符號體系，是語言交際工具的聲音形式。

語音的物理基礎主要有音高、音強、音長、音色，這也是構成語音的四要素。音高指聲波頻率，即每秒鐘振動次數的多少；音強指聲波振幅的大小；音長指聲波振動持續時間的長短，也稱為"時長"；音色指聲音的特色和本質，也稱作"音質"。^[2] 人的發音器官及其活動情況是語音的生理基礎。人的發音器官分3部分：

（1）呼吸器官，包括肺、氣管和支氣管。肺是呼吸器官的中心，是產生語音動力的基礎。

（2）喉頭和聲帶，它們是發音的振顫體。

（3）口腔、咽腔、鼻腔，它們都是發音的共鳴器。

語音和語義的聯繫是人們在長期的語言實踐中約定的，這種音義的結合關係體現了語音有重要的社會屬性。

語音軟件

技術水平

智能語音技術主要包括語音合成技術、語音識別技術、語音評測技術等，行業主要的技術水平如下：

（1）語音合成技術

語音合成技術是指通過機器自動將文字信息轉化為語音的技術，相當於給機器裝上了人工嘴巴。

評價語音合成技術水平的主要指標是計算機合成語音的自然度和可懂度。可懂度是指計算機合成語音能否讓用戶聽懂，這是該技術能否應用的必要條件。自然度是指計算機合成語音的自然、流暢程度，表示的是機器發音與自然發音之間的差距。

（2）語音識別技術

語音識別技術是指通過機器自動將語音信號轉化為文本及相關信息的技術，相當於給機器裝上了人工耳朵。

語音識別技術主要的技術評價指標包括：識別內容限制（連續語流還是命令詞）、識別詞語容量、識別正確率、識別使用人員限制（針對特定人還是普適所有人）、使用者口音適應能力、抗環境噪聲能力。按照最為重要的指標識別內容限制進行劃分，語音識別技術可分為大詞彙量連續語流識別技術和命令詞語音識別技術。命令詞語音識別技術作為現在應用最為廣泛的語音識別技術，按照應用場景和核心性能可分為電話命令詞語音識別技術和嵌入式命令詞語音識別技術。

（3）語音評測技術

語音評測技術是指通過機器自動對語音進行發音水平評價、檢錯，並給出糾正指導的技術。

語音評測技術的評價指標包括：評測內容限制（固定文本還是自由表述）、發音評分誤差和一致率、發音錯誤檢出率、發音人自身特點（小學生、中學生還是成人）、發音人背景影響（母語背景，方言還是外語）、語種支持（漢語、英語）等。國內從2002年初開始進行語音評測技術的跟蹤和探索性研究，目前已經可以很好的實現對文本朗讀的普通話評測工作，對於自由發言的發音評測是下一階段評測技術發展的一個方向。對於發音的評分，國家的普通話評測標準分為三級六等，總分100分制。2005年9月，在國家普通話測試中心和教育部語信司組織的現場測試中，科大訊飛的普通話水平自動評測系統和3個測試員同時對參加普通話等級考試的考生進行現場測試。在總分評定上，計算機誤差1.752分小於評測員的1.788分，在等級測定上，計算機79.4%的一致率非常接近於評測員79.8%的一致率。其結果表明當時的計算機口語測試準確程度已經達到了省級測試員的測試水平。針對中國人學習英語的評測技術，也是近年來研究界和產業界關注的重點，目前科大訊飛和中國科學院自動化所均已取得了較好的研究成果，初步達到了對中小學生英語口語評價的需要。

語對不同母語背景的漢語學習者提供普通話發音評測並予以指導的軟件和網站已經出現，例如www.iflylanguage.com，可以在單字、單詞、句子的層面上對方言區（香港）和外國人的漢語發音進行評測和輔助教學。

語音軟件行業經營模式

軟件行業的經營模式主要有三種：

銷售軟件使用授權許可，按用戶的使用數量收費；軟件系統銷售，通常是一次性銷售；軟件運營或提供軟件系統與第三方（如電信運營商）合作運營,從運營收益中獲得分成收入。總體來講，前兩種經營模式是國內軟件廠商主要盈利模式，第三種經營模式近年來隨着網絡遊戲和電信增值業務的發展而逐漸興起，因其具有持續穩定收入來源而更具經營優勢。

摺疊語音軟件行業區域性、季節性、周期性分析軟件行業與傳統行業相比具有鮮明的特點，主要表現在軟件產品可低成本、無限制複製，產品提供商可變成本很小。因此，行業的區域性、季節性和周期性主要取決於客戶需求的特點。

區域性：語音支撐軟件主要提供給各行業二次開發商，他們主要集中在北京、深圳、上海等經濟、科技發達城市；語音行業應用軟件客戶也主要集中在各省會城市和沿海經濟發達地區，呈現出一定區域性特點。季節性：本行業季節性特點主要表現在客戶需求的季節性變化上。電信級語音平台產品最終用戶是電信、銀行、證券等行業客戶。由於這些大行業客戶在項目建設上普遍具有上半年規劃論證、下半年實施的特點，因此，在該領域的收入普遍存在下半年高於上半年的情況。

在嵌入式終端軟件方面，由於學習機、電子詞典、電腦終端軟件的銷售都有寒促和暑促的季節性，且一般暑假和新學期開學時數量較大，因此導致每年學校寒、暑假前後銷量較大，且下半年銷售比上半年多的特點。總體來看，語音應用產品的銷售收入通常下半年高於上半年。周期性：本行業的發展依託於國家信息化建設和國民經濟的整體發展。目前國家信息化建設持續發展，經濟平穩快速增長，市場對於語音技術應用的需求日益強烈，特別是在北京奧運會和上海世博會等利好因素的帶動下，語音產業未來幾年內將保持快速穩定增長，周期性變化不明顯。

要素

音高

所謂的音高，就是指各種不同高低的聲音，即音的高度，音的基本特徵的一種。音的高低是由發音體的振動頻率決定的，兩者成正比關係：頻率振動次數多則音"高"，反之則"低"。

聲音的高低。由音波振動的頻率來決定。頻率高則音高；低則音低。音高是構成語音的要素之一。漢語裡音高變化有區別詞義的作用，如「媽」、「麻」、「馬」、「罵」四個字的聲調不同，即音高的不同。音樂聲學術語。指聽覺賴以分辨樂音高低的特性。

音強

音強，又稱音量，即音的強弱（響亮）程度。音的基本特性的一種。音的強弱是由發音時發音體振動幅度（簡稱振幅）的大小決定的，兩者成正比關係，振幅越大則音越"強"，反之則越"弱"。

音長

音長是指聲音的長短，它決定於發音體振動時間的久暫。發音體振動持續久，聲音就長，反之則短。

音色

音色指音的感覺特性。頻率的高低決定聲音的音調，振幅的大小決定聲音的響度但不同的物體發出的聲音我們還是可以通過音色分辨不同發生體的材料、結構不同，發出聲音的音色也就不同。音色是聲音的特色，根據不同的音色，即使在同一音高和同一聲音強度的情況下，也能區分出是不同樂器或人聲發出的。同樣的音量和音配上不同的音色就好比同樣色度和明度配上不同的色相的感覺一樣。

音色的不同取決於不同的泛音，每一種樂器、不同的人以及所有能發聲的物體發出的聲音，除了一個基音外，還有許多不同頻率的泛音伴隨，正是這些泛音決定了其不同的音色，使人能辨別出是不同的樂器甚至不同的人發出的聲音。每一個人即使說話也有不同的音色，因此可以根據其聲音辨別出是不同的人。原創

特點

語音跟其他各種各樣聲音的區別有三點：

第一，是由人的發音器官發出來的；

第二，不同的聲音代表了不同的意義；

第三，其作用在於社會交際。其中最主要的區別就在於：語音代表了一定的語義，是它的「社會性」。

語音性質

首先語音具有物理屬性，它跟自然界的一切聲音一樣，是一種物理現象；其次具有生理屬性，它是人的生理髮音器官發出來的；再次它具有社會屬性，語音有表義功能，這種功能是社會賦予的。

物理性質

一切聲音都是由物體的振動發出的，物體振動，振盪它周圍的空氣，形成音波，音波擴散，刺激到人的聽覺神經，人就聽到了聲音。任何聲音都是由音高、音強、音長、音色四種要素組成的，語音也是如此。

1、音高

聲音的高低。它決定於音波的頻率，即發音體在每秒鐘內振動的次數。振動的次數多，頻率大，聲音就高，反之就低。而頻率的大小和發音體 (聲帶)的長短、厚薄、鬆緊有關。聲帶短、薄、緊，發音時音頻就大，聲音就高，反之就低。弦樂器，弦細而短，音高；弦粗而長，就低。女人、兒童的聲帶每秒可振動150—300次，成年男子每秒60—200次。一個人情緒激動時聲音高，情緒低落時聲音低。一個人聲音的高低是靠控制聲帶的鬆緊來調節的。

漢語的聲調和語調主要是由音高決定的。如：媽、麻、馬、罵、嗎，衣、移、椅、意。「是他 ?」「是他。」

2、音強(音量、音勢、音重）

聲音的強弱。它與音波振幅的大小成正比。振幅：發音體振動幅度的大小，即氣粒子離開平衡位置最大的偏移度，與氣壓的大小成正比。語音的強弱取決於說話時用力的大小，用力大，呼出的氣體對聲帶衝擊力強，振幅大，聲音就強，反之就弱。比如一根胡琴的弦長度不變，用力拉，聲音強；輕拉，聲音就弱。擊鼓：使勁，鼓聲強；反之，鼓聲弱。

音強在漢語裡有區別詞義的作用和一定的語法作用，輕聲、重音可以區別意義，主要是音強決定的。如：報告——報告、練習——練習、地道——地道、蓮子——帘子、報仇——報酬，加點的字讀輕聲，前後詞義不相同。一句話的邏輯重音放在不同的位置上，表達的語意焦點是不同的。如 ?我今天下午去南京。?重音分別放在「我、今天、下午、南京」上，表達意思是不同的。

3、音長

聲音的長短，它決定於發音體振動時持續時間的久暫。振動時間長，聲音就長，反之就短。

音長在一些語言裡可以區別意義。如英語的 eat、it。廣州話：三[sa:m]、心[sam]。普通話「啊」音短則表應答、驚訝，音長則表沉吟、遲疑、感嘆。

4、音色(音質、音品)

聲音的特色、個性，也可以說是聲音的本質。它是由音波波紋的曲折形式不同造成的，是一個音素區別於其他音素的基本特徵。

造成不同的音色的條件主要有以下三種：

a、發音體不同。如管樂器，弦樂器，打擊樂器發音體都不一樣。笛子和二胡同奏一個曲子，人們可以分辨出哪是笛子的聲音，哪是二胡的聲音，笛子的發音體是笛膜，二胡的發音體是蟒皮，而人類的發音體是聲帶。

b.發音方法不同。同是弦樂器，手彈和弓拉發音不同。塞音、擦音、塞擦音發音方法也不同。

c.共鳴器的形狀不同。共鳴：又叫共振，一個靜止的發音體，遇到一個頻率與之振動頻率相同或相近的聲音時，會受到感染而發音，這種現象叫共鳴。這個受感染而振動的發音物體，叫共鳴器。樂器、人類的發音器官都是以空腔作共鳴器的。笛子和簫發音不同主要是因為共鳴器不同，同一把音叉插在不同的共鳴箱上，打擊時發音不同。b 從口腔出氣，m 從鼻腔出氣，口腔和鼻腔形狀不同，[а]、[ i ]發音不同也是因為口腔形成的共鳴器的形狀不同。口吹嗩吶時以兩手開合作拱狀，也是在改變共鳴器的形狀，以形成不同的聲音。

每個人說話的聲音不同主要是音色不同造成的。各人聲帶的長短、鬆緊、厚薄不同（發音體），各人的口腔、鼻腔的大小形狀不同（共鳴器），各人的說話時用氣的強弱、運氣的方法、口腔舌頭控制的情況等不同（發音方法），從而形成了各人的聲音特色，這正像樂器的音樂一樣。

生理性質

人的發音器官可分為三大部分：①肺、氣管、支氣管——動力部分。肺呼出的氣體，通過支氣管、氣管到達喉頭，振動聲帶，從而發聲。②聲帶——發音體。聲帶是位於喉頭中間的兩片薄膜，氣流從肺部呼出，通過聲門，衝動聲帶顫動發音。每個人聲帶的厚薄、鬆緊、大小、長短是不相同的，這是每個人說話聲音不同的原因之一。③口腔和鼻腔——共鳴器。每個人口腔和鼻腔的形狀、大小都有差別，這也是每個人說話聲音不同的原因之一。口腔中的軟齶和小舌，是控制口腔和鼻腔的「閥門」。軟齶、小舌下降，壓在舌根上，發音時鼻腔產生共鳴，如 m、n、ng，這些音叫鼻音。軟齶、小舌上升，堵塞鼻腔，發音時口腔產生共鳴，如a、o、e、i等，這些音叫口音。輔音中的口音和鼻音共有七組：

雙唇配合，可發出 b、p、m ，3個輔音，叫雙唇音；上齒與下唇配合，可發出 f ，1個輔音，叫唇齒音；舌尖與上齒背配合，可發出 z、c、s ，3個輔音，叫舌尖前音；舌尖與上齒齦配合，可發出 d、t、n、l，4個輔音，叫舌尖中音；舌尖與硬齶前部配合，可發生 zh、ch、sh、r ，4個輔音，叫舌尖後音；舌面與硬齶配合，可發出 j、q、x ，3個輔音，叫舌面音；舌根與軟齶和小舌配合，可發出g、k、h、ng ，4個輔音，叫舌根音。

元音都是口音。改變口腔這個共鳴的形狀，可以發出不同的元音。改變口腔的方法主要有三種：舌位的前後、高低，即口腔的開閉，唇形的圓或不圓。

社會性質

語音有表義功能，使得語音區別於自然界的其他聲音，因此語音的社會性質是它的本質屬性。語音這一屬性表現在以下方面：

音義結合的固定性。什麼聲音表示什麼意義，如何表示，是由使用某一語言的社會成員決定的。即：語言的「能指」和「所指」是由社會決定的。如gōngshì兩個音節可以表示公事、工事、公式、攻勢、宮室，tǔ dòu(土豆)、mǎ líng shǔ （馬鈴薯）表示同一事物，這些音義的結合都是說漢語的人約定俗成的。

語音的系統性。音位、音位的個數、音位的組合，各種語言、方言都有自己的系統。從物理、生理屬性上看是相同的語音現象，但在不同的音系中表義不同。如 n、1 在某些漢語方言的語音系統中是一個音位，「女客」「旅客」同音。漢藏語系的語言大都有聲調，送氣或不送氣在漢語裡可以別義，英語不能。park、student 中的 p、t 讀成送氣音或不送氣音，只是聽起來不地道，並沒有區別意義。而漢語的 t、d 則可以區別意義。原創

普通話語音

普通話有410個不分聲調的音節，大約1200個聲調有別的音節，如果拿普通話按同一個聲調(等同於沒有聲調的普通話，410個語音種類)說話，則人們根本無法聽得明白這樣的「普通話」，所以，410個語音種類是不可以支撐起普通話所使用中的現有數量的漢字的。按不同聲調所說的普通話(1200個語音種類)在非精細表達的場合卻能幾乎毫無障礙地聽辯出來，而在精細表達的場合比(如讀唐詩宋詞)則普通話幾乎不具備可聽性，而精細場合與非精細場合所使用的漢字數量正好不相同，這清楚無誤地說明普通話這種語言的語音系統不具備支撐整個漢語漢字系統的能力。不論是漢語的任何方言，它的語音系統所能支撐的漢字使用數量應該為其語音種類總數的3倍，其依據是：

一個最簡單的標準句子包含主語、謂語和賓語三個成分，如果這三個組成成分中的每一個都出現同音混義則該句子必定不具備可聽性。因為當一種漢語方言的漢字使用量是其語音種類總數的3倍時，平均每個語音必須承擔3個不同的語義，分配到這個最簡單的標準句子後就使主、謂、賓三者都出現的混義，這樣使整個句子完全失去邏輯概念的惟一性，也就喪失了大腦糾錯機制對同音混義的析解糾錯能力，使說話不能被聽者聽明白。所以，可信的計算結果是：普通話這種漢語方言最多能支撐4500個漢字的使用量。

參考來源

[1] 文字轉語音軟件_語音文字互轉_精準識別_2020全新版_語音轉換文字軟件

[2] 語音在線生成-語音文字互轉精準識別神器!_文字轉換語音在線

[1]

[2]

語音檢視原始碼討論檢視歷史

目錄

概述

語音軟件

要素

特點

語音性質

普通話語音

參考來源