five

ciempiess/ciempiess_light

收藏
Hugging Face2024-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ciempiess/ciempiess_light
下载链接
链接失效反馈
官方服务:
资源简介:
CIEMPIESS LIGHT是一个用于自动语音识别的墨西哥西班牙语广播对话音频和转录文本的语料库。该数据集由墨西哥国立自治大学(UNAM)的实验室创建,包含了来自53名男性和34名女性发言者的16663个音频文件,总时长为18小时25分钟。数据集的特点是音频文件时长为2到10秒,内容涉及法律和律师问题,以及与UNAM大学相关的话题。数据集的转录由人工完成,音频文件以16kHz@16bit单声道格式存储。数据集仅包含训练集,适用于自动语音识别任务。
提供机构:
ciempiess
原始信息汇总

数据集概述

数据集描述

数据集总结

CIEMPIESS LIGHT CORPUS 是一个专为自动语音识别(ASR)训练声学模型设计的广播语料库,包含墨西哥西班牙语中的自发对话录音。该语料库是 CIEMPIESS 语料库的增强版本,主要包含广播主持人与嘉宾之间的对话。

支持的任务

  • 自动语音识别(ASR):用于测试模型将音频文件转录为文本的能力。

语言

  • 西班牙语(墨西哥中部口音)

数据集结构

数据实例

每个数据实例包含以下字段:

  • audio_id:音频段ID
  • audio:音频文件的路径、解码音频数组及采样率
  • speaker_id:说话者ID
  • gender:说话者性别(男或女)
  • duration:音频文件时长(秒)
  • normalized_text:音频段的标准化转录文本

数据字段

  • audio_id (字符串)
  • audio (datasets.Audio)
  • speaker_id (字符串)
  • gender (字符串)
  • duration (float32)
  • normalized_text (字符串)

数据分割

数据集仅包含训练分割,共有16663个语音文件,来自53名男性和34名女性说话者,总时长为18小时25分钟。

数据集创建

来源数据

CIEMPIESS LIGHT 语料库由来自 PODCAST UNAM 的 mp3 录音构成,这些录音是 RADIO-IUS 和 Mirador Universitario 制作的广播节目。

注释

注释过程包括手动分割播客,保留高质量语音部分,并由不同部门的学生进行转录。

个人和敏感信息

数据集可能包含可识别说话者身份的名称,但所有录音均来自公开可用的播客。

使用数据集的考虑

社会影响

该数据集因其包含的自发语音而具有价值。

偏见讨论

数据集在性别上不平衡,且词汇限于法律议题。

其他已知限制

数据集根据 Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可发布,不提供任何保证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作