ciempiess/ciempiess_complementary

Name: ciempiess/ciempiess_complementary
Creator: ciempiess
Published: 2024-08-03 22:30:53
License: 暂无描述

Hugging Face2024-08-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ciempiess/ciempiess_complementary

下载链接

链接失效反馈

官方服务：

资源简介：

CIEMPIESS COMPLEMENTARY是一个语音平衡的西班牙语孤立单词语料库，由墨西哥中部的人录制。该数据集旨在解决训练自动语音识别系统时特定音素实例不足的问题。数据集由10名男性和10名女性志愿者录制，单词选择确保了墨西哥语音字母表Mexbet中的每个音素和音位至少有20个实例。数据集仅包含训练集，共有520个语音文件，每个志愿者贡献了26个语音文件。

CIEMPIESS COMPLEMENTARY is a phonetically balanced Spanish isolated-word corpus recorded by speakers from central Mexico. This dataset is designed to address the shortage of specific phoneme instances during the training of automatic speech recognition (ASR) systems. Recorded by 10 male and 10 female volunteer speakers, the dataset's word selection ensures that every phoneme and phone in the Mexican speech alphabet Mexbet has at least 20 instances each. The dataset only includes a training split, comprising a total of 520 audio files, with each volunteer contributing 26 audio files.

提供机构：

ciempiess

原始信息汇总

数据集卡片 for ciempiess_complementary

数据集描述

数据集摘要

CIEMPIESS COMPLEMENTARY 是一个由墨西哥中部人士发音的西班牙语孤立词的语音平衡语料库。该语料库旨在解决在训练墨西哥中部西班牙语自动语音识别（ASR）系统时遇到的一个特定问题，即当收集了一些训练数据后，系统可能会因为找不到某些特定音素或音素的实例而出现问题。

CIEMPIESS COMPLEMENTARY 语料库由10名男性和10名女性志愿者录制，他们朗读孤立词。这些词的选择确保用户至少能获得墨西哥音标（Mexbet）中每个音素和音素的20个实例。因此，CIEMPIESS COMPLEMENTARY 被称为“补充”语料库，因为它在训练墨西哥中部西班牙语ASR系统时“补充”了数据集。

支持的任务

自动语音识别：该数据集可用于测试自动语音识别（ASR）模型的性能。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率（WER）。

语言

该语料库的语言是带有墨西哥中部口音的西班牙语。

数据集结构

数据实例

python { audio_id: CMPC_F_05_A_0002, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/7c889e5ab17b842a7b62a3fbcfe0f9d71c0b89cb8df5a896a9acae10594bffba/train/female/F_05/alphabet/CMPC_F_05_A_0002.flac, array: array([0. , 0. , 0. , ..., 0.00097656, 0.00183105, 0.00180054], dtype=float32), sampling_rate: 16000 }, speaker_id: F_05, gender: female, duration: 9.470000267028809, utt_type: Letters, age: 20, education: University, birthplace: Mexico City, residence: Mexico City, normalized_text: jota ka ele doble ele eme ene eñe o pe cu erre }

数据字段

audio_id (string) - 音频片段的ID
audio (datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典
speaker_id (string) - 说话者的ID
gender (string) - 说话者的性别（男性或女性）
duration (float32) - 音频文件的持续时间（秒）
utt_type (string) - 话语类型（"W": 单词, "A": 字母, "D": 数字）
age (int32) - 说话者的年龄
education (string) - 说话者的教育水平
birthplace (string) - 说话者的出生地
residence (string) - 说话者的居住地
normalized_text (string) - 音频片段的标准化转录文本

数据分割

该语料库仅包含训练分割，共有520个语音文件，来自10名男性和10名女性志愿者，年龄在20至49岁之间。每个说话者贡献了26个语音文件。

数据集创建

策划理由

CIEMPIESS COMPLEMENTARY 语料库具有以下特点：

使用Sony ICD-PX312D录音机在中等噪音环境下录制，原始录音为MP3格式，44.1 kHz，128 kbps，立体声。
10名男性和10名女性志愿者来自墨西哥中部，年龄在20至49岁之间，每人贡献了26个语音文件。
语料库总时长56分钟，包含520个语音文件，转换为16 kHz，16位，PCM，单声道格式。
每个说话者朗读0到9的数字（1个语音文件），字母表及某些字母的常用昵称（3个语音文件，每文件11个字母），以及66个单词的列表（22个语音文件，每文件3个单词）。
每个说话者朗读的西班牙语单词列表设计确保墨西哥音标（Mexbet）的66个音素和音素变体至少被重复一次。

源数据

初始数据收集和规范化

所有构成CIEMPIESS COMPLEMENTARY的录音均由Susana Alejandra Jiménez Sandoval在2016年至2017年间使用Sony ICD-PX312D录音机在中等噪音环境下录制。该语料库由Carlos Daniel Hernández Mena在2018年进行整理。

注释

注释过程

语料库由志愿者朗读孤立词和字母的录音创建。每个说话者的单词列表是唯一的，旨在实现语音平衡，并由墨西哥中部西班牙语的母语者朗读。

注释者

语料库由Carlos Daniel Hernández Mena设计和整理，由Susana Alejandra Jiménez Sandoval收集。

个人和敏感信息

语料库包含志愿者朗读孤立词和字母的语音录音，不包含个人或敏感信息。但您同意不尝试确定此数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

该数据集具有价值，因为它在语音上是平衡的。

偏见的讨论

语料库在性别和语音上是平衡的；10名男性和10名女性志愿者来自墨西哥中部，年龄在20至49岁之间，每人贡献了26个语音文件。

其他已知限制

“CIEMPIESS COMPLEMENTARY CORPUS”由Carlos Daniel Hernández Mena根据Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证授权，希望它有用，但没有任何保证；不包括默示的保证或适用于特定用途的保证。

附加信息

数据集策展人

该数据集由Carlos Daniel Hernández Mena在2018年整理。

许可信息

CC-BY-SA-4.0

引用信息

@misc{carlosmenaciempiesscomplementary2019, title={CIEMPIESS COMPLEMENTARY CORPUS: Audio and Transcripts of Spanish Isolated Words.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel and Jiménez Sandoval, Susana Alejandra}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }

贡献

作者感谢Alejandro V. Mena, Elena Vera和Angélica Gutiérrez对“Desarrollo de Tecnologías del Habla”社会服务项目的支持。

搜集汇总

数据集介绍

构建方式

在墨西哥西班牙语自动语音识别研究中，为解决特定音素实例不足的问题，CIEMPIESS COMPLEMENTARY数据集应运而生。该数据集构建过程严谨，由20名来自墨西哥中部的志愿者（男女各半）参与录制，每位贡献26条语音文件，总计520条。录制环境模拟中等规模图书馆的适度噪声条件，采用索尼录音设备采集原始MP3格式音频，后统一转换为16kHz、16位PCM单声道格式。语料设计基于墨西哥语音字母表Mexbet的T66层级，确保每个音素和同位异音至少出现20次，通过精心挑选的孤立单词和字母列表实现语音平衡。

使用方法

在语音技术研究与开发中，该数据集主要服务于墨西哥西班牙语自动语音识别系统的训练与优化。使用者可通过Hugging Face的`datasets`库直接加载，仅包含训练集。加载后，每条数据实例均提供音频路径、解码后的波形数组、采样率以及标准化的文本转录。研究人员可利用这些音频与文本对，训练或微调语音识别模型，尤其适用于解决特定音素识别不足的问题。评估时，常采用词错误率作为核心指标。使用中需遵循CC-BY-SA-4.0许可协议，并承诺不尝试识别说话人身份。

背景与挑战

背景概述

在语音识别技术蓬勃发展的背景下，针对特定语言变体的高质量语音数据需求日益凸显。CIEMPIESS COMPLEMENTARY语料库由墨西哥国立自治大学（UNAM）的研究团队于2018年创建，主要研究者为Carlos Daniel Hernández Mena与Susana Alejandra Jiménez Sandoval。该数据集旨在解决墨西哥中部西班牙语自动语音识别系统训练中存在的音素覆盖不足问题，其核心设计理念是通过精心挑选的孤立词语料，确保墨西哥语音标体系Mexbet中每个音素与同位异音均获得充分实例。该语料库作为CIEMPIESS实验数据集系列的重要组成部分，为方言语音识别研究提供了珍贵的音素平衡资源，显著提升了墨西哥西班牙语语音技术研究的深度与精度。

当前挑战

该数据集致力于解决墨西哥中部西班牙语自动语音识别中的音素覆盖挑战，其核心在于应对训练数据中特定音素实例稀缺导致的模型识别偏差问题。在构建过程中，研究团队面临多重技术挑战：首先需依据Mexbet音标体系设计出能均衡覆盖66个音素与同位异音的词语列表，确保每个音素至少出现20次；其次需在中等噪声环境下采集20位发音人的高质量语音数据，并保持性别与年龄分布的平衡性；最后还需将原始MP3格式录音转化为16kHz单声道标准格式，同时完成语音切分与文本转写的一致性标注。这些挑战的克服使得该数据集成为方言语音识别领域具有高度结构化的补充性资源。

常用场景

经典使用场景

在墨西哥中部西班牙语自动语音识别系统的开发过程中，数据集的经典应用场景体现在其作为补充训练语料的角色。该数据集通过精心设计的孤立词语料，确保了墨西哥语音素表Mexbet中每个音素和音位变体均获得充分覆盖，从而有效缓解了因特定音素实例不足而导致的模型训练瓶颈。研究人员常利用该数据集对现有ASR模型进行微调或数据增强，以提升模型对墨西哥中部口音的识别鲁棒性。

解决学术问题

该数据集主要解决了墨西哥中部西班牙语自动语音识别研究中的音素覆盖不平衡问题。传统语音数据集往往因采集限制，导致某些音素样本稀缺，进而影响模型对特定发音的识别精度。通过提供音素平衡的孤立词录音，该数据集使研究者能够系统性地检验音素级建模效果，并为方言语音识别中的音系学分析提供了标准化实验基础。其意义在于推动了方言适应性语音技术的理论发展，为多方言语音资源建设提供了方法论参考。

实际应用

在实际应用层面，该数据集常被集成到智能语音助手的方言适配流程中，特别是针对墨西哥地区的语音交互系统。教育科技领域利用其开发西班牙语发音评估工具，帮助学习者掌握标准墨西哥发音。在语音病理学研究中，该数据集可作为发音障碍分析的对照基准。此外，电信企业将其用于优化针对墨西哥用户的语音识别服务，提升在嘈杂环境下的语音指令理解准确率。

数据集最近研究