ciempiess/ciempiess_complementary|自动语音识别数据集|墨西哥中部西班牙语数据集

hugging_face2024-08-03 更新2024-03-04 收录

自动语音识别

墨西哥中部西班牙语

下载链接：

https://hf-mirror.com/datasets/ciempiess/ciempiess_complementary

下载链接

链接失效反馈

资源简介：

CIEMPIESS COMPLEMENTARY是一个语音平衡的西班牙语孤立单词语料库，由墨西哥中部的人录制。该数据集旨在解决训练自动语音识别系统时特定音素实例不足的问题。数据集由10名男性和10名女性志愿者录制，单词选择确保了墨西哥语音字母表Mexbet中的每个音素和音位至少有20个实例。数据集仅包含训练集，共有520个语音文件，每个志愿者贡献了26个语音文件。

提供机构：

ciempiess

原始信息汇总

数据集卡片 for ciempiess_complementary

数据集描述

数据集摘要

CIEMPIESS COMPLEMENTARY 是一个由墨西哥中部人士发音的西班牙语孤立词的语音平衡语料库。该语料库旨在解决在训练墨西哥中部西班牙语自动语音识别（ASR）系统时遇到的一个特定问题，即当收集了一些训练数据后，系统可能会因为找不到某些特定音素或音素的实例而出现问题。

CIEMPIESS COMPLEMENTARY 语料库由10名男性和10名女性志愿者录制，他们朗读孤立词。这些词的选择确保用户至少能获得墨西哥音标（Mexbet）中每个音素和音素的20个实例。因此，CIEMPIESS COMPLEMENTARY 被称为“补充”语料库，因为它在训练墨西哥中部西班牙语ASR系统时“补充”了数据集。

支持的任务

自动语音识别：该数据集可用于测试自动语音识别（ASR）模型的性能。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率（WER）。

语言

该语料库的语言是带有墨西哥中部口音的西班牙语。

数据集结构

数据实例

python { audio_id: CMPC_F_05_A_0002, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/7c889e5ab17b842a7b62a3fbcfe0f9d71c0b89cb8df5a896a9acae10594bffba/train/female/F_05/alphabet/CMPC_F_05_A_0002.flac, array: array([0. , 0. , 0. , ..., 0.00097656, 0.00183105, 0.00180054], dtype=float32), sampling_rate: 16000 }, speaker_id: F_05, gender: female, duration: 9.470000267028809, utt_type: Letters, age: 20, education: University, birthplace: Mexico City, residence: Mexico City, normalized_text: jota ka ele doble ele eme ene eñe o pe cu erre }

数据字段

audio_id (string) - 音频片段的ID
audio (datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典
speaker_id (string) - 说话者的ID
gender (string) - 说话者的性别（男性或女性）
duration (float32) - 音频文件的持续时间（秒）
utt_type (string) - 话语类型（"W": 单词, "A": 字母, "D": 数字）
age (int32) - 说话者的年龄
education (string) - 说话者的教育水平
birthplace (string) - 说话者的出生地
residence (string) - 说话者的居住地
normalized_text (string) - 音频片段的标准化转录文本

数据分割

该语料库仅包含训练分割，共有520个语音文件，来自10名男性和10名女性志愿者，年龄在20至49岁之间。每个说话者贡献了26个语音文件。

数据集创建

策划理由

CIEMPIESS COMPLEMENTARY 语料库具有以下特点：

使用Sony ICD-PX312D录音机在中等噪音环境下录制，原始录音为MP3格式，44.1 kHz，128 kbps，立体声。
10名男性和10名女性志愿者来自墨西哥中部，年龄在20至49岁之间，每人贡献了26个语音文件。
语料库总时长56分钟，包含520个语音文件，转换为16 kHz，16位，PCM，单声道格式。
每个说话者朗读0到9的数字（1个语音文件），字母表及某些字母的常用昵称（3个语音文件，每文件11个字母），以及66个单词的列表（22个语音文件，每文件3个单词）。
每个说话者朗读的西班牙语单词列表设计确保墨西哥音标（Mexbet）的66个音素和音素变体至少被重复一次。

源数据

初始数据收集和规范化

所有构成CIEMPIESS COMPLEMENTARY的录音均由Susana Alejandra Jiménez Sandoval在2016年至2017年间使用Sony ICD-PX312D录音机在中等噪音环境下录制。该语料库由Carlos Daniel Hernández Mena在2018年进行整理。

注释

注释过程

语料库由志愿者朗读孤立词和字母的录音创建。每个说话者的单词列表是唯一的，旨在实现语音平衡，并由墨西哥中部西班牙语的母语者朗读。

注释者

语料库由Carlos Daniel Hernández Mena设计和整理，由Susana Alejandra Jiménez Sandoval收集。

个人和敏感信息

语料库包含志愿者朗读孤立词和字母的语音录音，不包含个人或敏感信息。但您同意不尝试确定此数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

该数据集具有价值，因为它在语音上是平衡的。

偏见的讨论

语料库在性别和语音上是平衡的；10名男性和10名女性志愿者来自墨西哥中部，年龄在20至49岁之间，每人贡献了26个语音文件。

其他已知限制

“CIEMPIESS COMPLEMENTARY CORPUS”由Carlos Daniel Hernández Mena根据Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证授权，希望它有用，但没有任何保证；不包括默示的保证或适用于特定用途的保证。

附加信息

数据集策展人

该数据集由Carlos Daniel Hernández Mena在2018年整理。

许可信息

CC-BY-SA-4.0

引用信息

@misc{carlosmenaciempiesscomplementary2019, title={CIEMPIESS COMPLEMENTARY CORPUS: Audio and Transcripts of Spanish Isolated Words.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel and Jiménez Sandoval, Susana Alejandra}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }

贡献

作者感谢Alejandro V. Mena, Elena Vera和Angélica Gutiérrez对“Desarrollo de Tecnologías del Habla”社会服务项目的支持。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据，涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标（如pH值、溶解氧、总硬度等）以及环境因素（如气温、降水量等）。