CommonVoice數據集

來自站酷網的圖片

CommonVoice數據集Common Voice，是一個由Mozilla基金會發起的多語言開源語音學術數據集。

此數據集是音頻數據和文本數據的混合。Common Voice數據集中包含超過9000小時的錄音信息及其書面記錄文本，除此之外還可以使用其他數據信息，例如說話者的年齡，性別和口音，可以幫助提高模型的語音檢測性能。

該數據集可用於訓練60多種語言的語音檢測模型。無論是在Google Home、Alexa和Siri等常見應用中，都不可缺少這種語音檢測模型，這些語音模型當然也需要具備多語言的處理能力，這時Common Voice數據集就派上用場了。

基本信息

Common Voice數據集最早於2017年發布，並持續更新至今。它已成為構建語音AI最有用的資源之一，數據集的下載量從2020年的38,500次躍升至最近的500萬次。

該數據集通過Common Voice網站和移動應用進行70種語言的數據收集工作，目前已包括29種不同的語言，其中也包含漢語。數據集從4萬多名貢獻者那裡收集了近2454小時的錄音語音數據，其中1965小時已驗證。

數據集特點

Common Voice數據集不僅在其大小和許可模型方面是獨一無二的，而且在其多樣性上也是獨一無二的。它是一個由全球社區的語音貢獻者組成的，貢獻者可以選擇提供他們的年齡、性別和口音等統計^[1]元數據，以便在訓練語音引擎中使用這些有用的信息‌。

數據集包含了可應用於多種語言語音識別^[2]模型的訓練集、開發集、測試集，為研究人員提供了豐富的資源來構建和評估他們的語音識別系統‌3。

數據集構成

Common Voice數據集的目錄結構清晰，包含README.md項目說明文件、LICENSE開源許可證文件、data/存儲數據集的主要目錄等。其中，data/目錄下還包含clips/存儲音頻剪輯文件，以及validated.tsv、invalidated.tsv、other.tsv等元數據文件。

使用與獲取

Common Voice數據集是公開的，並且Mozilla基金會已做出開放的承諾，向初創公司、研究人員以及對語音技術感興趣的任何人公開收集到的高質量語音數據。

用戶可以通過Mozilla的官方渠道或其他指定的數據分享平台獲取該數據集，並遵循相應的數據使用協議和隱私政策進行合法使用。

應用與影響

Common Voice數據集為AI語音技術帶來了更多的透明性和多樣性，有助於改變當前語音助手主要依賴英語和特定口音的現狀‌。

該數據集的應用範圍廣泛，可用於訓練語音識別模型、提升語音識別的準確性，並推動語音技術的普及和發展‌。

綜上所述，Common Voice數據集是一個具有重要價值的多語言開源語音學術數據集，它為研究人員提供了豐富的資源來構建和評估語音識別系統，並有助於推動語音技術的創新和發展。

參考文獻

移至 ↑ 應用統計碩士就業方向，戰馬教育，2020-03-19
移至 ↑ 語音識別：將語音轉化為文字的技術和算法，搜狐，2024-01-07

[1] 移至 ↑ 應用統計碩士就業方向，戰馬教育，2020-03-19

[2] 移至 ↑ 語音識別：將語音轉化為文字的技術和算法，搜狐，2024-01-07

[1]

[2]