ciempiess/ciempiess_complementary|自动语音识别数据集|墨西哥中部西班牙语数据集
收藏数据集卡片 for ciempiess_complementary
数据集描述
数据集摘要
CIEMPIESS COMPLEMENTARY 是一个由墨西哥中部人士发音的西班牙语孤立词的语音平衡语料库。该语料库旨在解决在训练墨西哥中部西班牙语自动语音识别(ASR)系统时遇到的一个特定问题,即当收集了一些训练数据后,系统可能会因为找不到某些特定音素或音素的实例而出现问题。
CIEMPIESS COMPLEMENTARY 语料库由10名男性和10名女性志愿者录制,他们朗读孤立词。这些词的选择确保用户至少能获得墨西哥音标(Mexbet)中每个音素和音素的20个实例。因此,CIEMPIESS COMPLEMENTARY 被称为“补充”语料库,因为它在训练墨西哥中部西班牙语ASR系统时“补充”了数据集。
支持的任务
- 自动语音识别:该数据集可用于测试自动语音识别(ASR)模型的性能。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率(WER)。
语言
该语料库的语言是带有墨西哥中部口音的西班牙语。
数据集结构
数据实例
python { audio_id: CMPC_F_05_A_0002, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/7c889e5ab17b842a7b62a3fbcfe0f9d71c0b89cb8df5a896a9acae10594bffba/train/female/F_05/alphabet/CMPC_F_05_A_0002.flac, array: array([0. , 0. , 0. , ..., 0.00097656, 0.00183105, 0.00180054], dtype=float32), sampling_rate: 16000 }, speaker_id: F_05, gender: female, duration: 9.470000267028809, utt_type: Letters, age: 20, education: University, birthplace: Mexico City, residence: Mexico City, normalized_text: jota ka ele doble ele eme ene eñe o pe cu erre }
数据字段
audio_id
(string) - 音频片段的IDaudio
(datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典speaker_id
(string) - 说话者的IDgender
(string) - 说话者的性别(男性或女性)duration
(float32) - 音频文件的持续时间(秒)utt_type
(string) - 话语类型("W": 单词, "A": 字母, "D": 数字)age
(int32) - 说话者的年龄education
(string) - 说话者的教育水平birthplace
(string) - 说话者的出生地residence
(string) - 说话者的居住地normalized_text
(string) - 音频片段的标准化转录文本
数据分割
该语料库仅包含训练分割,共有520个语音文件,来自10名男性和10名女性志愿者,年龄在20至49岁之间。每个说话者贡献了26个语音文件。
数据集创建
策划理由
CIEMPIESS COMPLEMENTARY 语料库具有以下特点:
- 使用Sony ICD-PX312D录音机在中等噪音环境下录制,原始录音为MP3格式,44.1 kHz,128 kbps,立体声。
- 10名男性和10名女性志愿者来自墨西哥中部,年龄在20至49岁之间,每人贡献了26个语音文件。
- 语料库总时长56分钟,包含520个语音文件,转换为16 kHz,16位,PCM,单声道格式。
- 每个说话者朗读0到9的数字(1个语音文件),字母表及某些字母的常用昵称(3个语音文件,每文件11个字母),以及66个单词的列表(22个语音文件,每文件3个单词)。
- 每个说话者朗读的西班牙语单词列表设计确保墨西哥音标(Mexbet)的66个音素和音素变体至少被重复一次。
源数据
初始数据收集和规范化
所有构成CIEMPIESS COMPLEMENTARY的录音均由Susana Alejandra Jiménez Sandoval在2016年至2017年间使用Sony ICD-PX312D录音机在中等噪音环境下录制。该语料库由Carlos Daniel Hernández Mena在2018年进行整理。
注释
注释过程
语料库由志愿者朗读孤立词和字母的录音创建。每个说话者的单词列表是唯一的,旨在实现语音平衡,并由墨西哥中部西班牙语的母语者朗读。
注释者
语料库由Carlos Daniel Hernández Mena设计和整理,由Susana Alejandra Jiménez Sandoval收集。
个人和敏感信息
语料库包含志愿者朗读孤立词和字母的语音录音,不包含个人或敏感信息。但您同意不尝试确定此数据集中说话者的身份。
使用数据的注意事项
数据集的社会影响
该数据集具有价值,因为它在语音上是平衡的。
偏见的讨论
语料库在性别和语音上是平衡的;10名男性和10名女性志愿者来自墨西哥中部,年龄在20至49岁之间,每人贡献了26个语音文件。
其他已知限制
“CIEMPIESS COMPLEMENTARY CORPUS”由Carlos Daniel Hernández Mena根据Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证授权,希望它有用,但没有任何保证;不包括默示的保证或适用于特定用途的保证。
附加信息
数据集策展人
该数据集由Carlos Daniel Hernández Mena在2018年整理。
许可信息
引用信息
@misc{carlosmenaciempiesscomplementary2019, title={CIEMPIESS COMPLEMENTARY CORPUS: Audio and Transcripts of Spanish Isolated Words.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel and Jiménez Sandoval, Susana Alejandra}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }
贡献
作者感谢Alejandro V. Mena, Elena Vera和Angélica Gutiérrez对“Desarrollo de Tecnologías del Habla”社会服务项目的支持。
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录