ciempiess/ciempiess_complementary
收藏数据集卡片 for ciempiess_complementary
数据集描述
数据集摘要
CIEMPIESS COMPLEMENTARY 是一个由墨西哥中部人士发音的西班牙语孤立词的语音平衡语料库。该语料库旨在解决在训练墨西哥中部西班牙语自动语音识别(ASR)系统时遇到的一个特定问题,即当收集了一些训练数据后,系统可能会因为找不到某些特定音素或音素的实例而出现问题。
CIEMPIESS COMPLEMENTARY 语料库由10名男性和10名女性志愿者录制,他们朗读孤立词。这些词的选择确保用户至少能获得墨西哥音标(Mexbet)中每个音素和音素的20个实例。因此,CIEMPIESS COMPLEMENTARY 被称为“补充”语料库,因为它在训练墨西哥中部西班牙语ASR系统时“补充”了数据集。
支持的任务
- 自动语音识别:该数据集可用于测试自动语音识别(ASR)模型的性能。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率(WER)。
语言
该语料库的语言是带有墨西哥中部口音的西班牙语。
数据集结构
数据实例
python { audio_id: CMPC_F_05_A_0002, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/7c889e5ab17b842a7b62a3fbcfe0f9d71c0b89cb8df5a896a9acae10594bffba/train/female/F_05/alphabet/CMPC_F_05_A_0002.flac, array: array([0. , 0. , 0. , ..., 0.00097656, 0.00183105, 0.00180054], dtype=float32), sampling_rate: 16000 }, speaker_id: F_05, gender: female, duration: 9.470000267028809, utt_type: Letters, age: 20, education: University, birthplace: Mexico City, residence: Mexico City, normalized_text: jota ka ele doble ele eme ene eñe o pe cu erre }
数据字段
audio_id(string) - 音频片段的IDaudio(datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典speaker_id(string) - 说话者的IDgender(string) - 说话者的性别(男性或女性)duration(float32) - 音频文件的持续时间(秒)utt_type(string) - 话语类型("W": 单词, "A": 字母, "D": 数字)age(int32) - 说话者的年龄education(string) - 说话者的教育水平birthplace(string) - 说话者的出生地residence(string) - 说话者的居住地normalized_text(string) - 音频片段的标准化转录文本
数据分割
该语料库仅包含训练分割,共有520个语音文件,来自10名男性和10名女性志愿者,年龄在20至49岁之间。每个说话者贡献了26个语音文件。
数据集创建
策划理由
CIEMPIESS COMPLEMENTARY 语料库具有以下特点:
- 使用Sony ICD-PX312D录音机在中等噪音环境下录制,原始录音为MP3格式,44.1 kHz,128 kbps,立体声。
- 10名男性和10名女性志愿者来自墨西哥中部,年龄在20至49岁之间,每人贡献了26个语音文件。
- 语料库总时长56分钟,包含520个语音文件,转换为16 kHz,16位,PCM,单声道格式。
- 每个说话者朗读0到9的数字(1个语音文件),字母表及某些字母的常用昵称(3个语音文件,每文件11个字母),以及66个单词的列表(22个语音文件,每文件3个单词)。
- 每个说话者朗读的西班牙语单词列表设计确保墨西哥音标(Mexbet)的66个音素和音素变体至少被重复一次。
源数据
初始数据收集和规范化
所有构成CIEMPIESS COMPLEMENTARY的录音均由Susana Alejandra Jiménez Sandoval在2016年至2017年间使用Sony ICD-PX312D录音机在中等噪音环境下录制。该语料库由Carlos Daniel Hernández Mena在2018年进行整理。
注释
注释过程
语料库由志愿者朗读孤立词和字母的录音创建。每个说话者的单词列表是唯一的,旨在实现语音平衡,并由墨西哥中部西班牙语的母语者朗读。
注释者
语料库由Carlos Daniel Hernández Mena设计和整理,由Susana Alejandra Jiménez Sandoval收集。
个人和敏感信息
语料库包含志愿者朗读孤立词和字母的语音录音,不包含个人或敏感信息。但您同意不尝试确定此数据集中说话者的身份。
使用数据的注意事项
数据集的社会影响
该数据集具有价值,因为它在语音上是平衡的。
偏见的讨论
语料库在性别和语音上是平衡的;10名男性和10名女性志愿者来自墨西哥中部,年龄在20至49岁之间,每人贡献了26个语音文件。
其他已知限制
“CIEMPIESS COMPLEMENTARY CORPUS”由Carlos Daniel Hernández Mena根据Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证授权,希望它有用,但没有任何保证;不包括默示的保证或适用于特定用途的保证。
附加信息
数据集策展人
该数据集由Carlos Daniel Hernández Mena在2018年整理。
许可信息
引用信息
@misc{carlosmenaciempiesscomplementary2019, title={CIEMPIESS COMPLEMENTARY CORPUS: Audio and Transcripts of Spanish Isolated Words.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel and Jiménez Sandoval, Susana Alejandra}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }
贡献
作者感谢Alejandro V. Mena, Elena Vera和Angélica Gutiérrez对“Desarrollo de Tecnologías del Habla”社会服务项目的支持。




