five

ciempiess/ciempiess_test

收藏
Hugging Face2023-08-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ciempiess/ciempiess_test
下载链接
链接失效反馈
官方服务:
资源简介:
CIEMPIESS TEST Corpus是一个性别平衡的语料库,专门用于测试语音识别任务的声学模型。它由10名男性和10名女性发言者的录音和人工转录组成。该语料库是CIEMPIESS数据集的一部分,仅包含与第一个CIEMPIESS Corpus相同来源的音频,并且仅推荐用于测试目的。数据集包含3558个语音文件,总时长为8小时8分钟,音频文件格式为16khz@16bit单声道。所有发言者均来自墨西哥,除了一个来自萨尔瓦多的发言者。数据集的语言为西班牙语,主要为墨西哥中部口音。

The CIEMPIESS TEST Corpus is a gender-balanced corpus specifically designed for testing acoustic models in speech recognition tasks. It consists of recordings and manual transcriptions from 10 male and 10 female speakers. This corpus is part of the CIEMPIESS dataset, and only contains audio sourced from the same origin as the first CIEMPIESS Corpus, and is solely recommended for testing purposes. The dataset includes 3558 speech audio files with a total duration of 8 hours and 8 minutes, and the audio format is 16 kHz @ 16-bit mono. All speakers are from Mexico, except for one speaker from El Salvador. The language of this dataset is Spanish, primarily featuring central Mexican accents.
提供机构:
ciempiess
原始信息汇总

数据集概述

数据集名称

  • 名称: CIEMPIESS TEST CORPUS
  • 别名: ciempiess_test

数据集描述

  • 摘要: CIEMPIESS TEST CORPUS 是一个专为自动语音识别(ASR)测试设计的性别平衡语料库,包含10名男性和10名女性的录音及人工转录文本。
  • 语言: 西班牙语(墨西哥口音)
  • 许可: CC-BY-SA-4.0
  • 大小: 1K<n<10K(文件数)
  • 来源: 原始数据
  • 任务类别: 自动语音识别
  • 语言: 单语种(西班牙语)

数据集结构

  • 数据实例: 每个实例包含音频ID、音频文件路径、说话者ID、性别、持续时间和标准化文本转录。
  • 数据字段:
    • audio_id: 音频段ID
    • audio: 音频信息,包括路径、音频数组和采样率
    • speaker_id: 说话者ID
    • gender: 说话者性别(男或女)
    • duration: 音频文件持续时间(秒)
    • normalized_text: 音频段的标准化转录文本
  • 数据分割: 仅包含测试集,总计3558个语音文件,总时长8小时8分钟。

数据集创建

  • 采集理由: 用于评估CIEMPIESS数据集社区用户的进展,特别推荐仅用于测试目的。
  • 源数据: 来自UNAM的RADIO-IUS电台的录音,用于学术和研究目的。
  • 注释过程: 由UNAM的学生进行手动分割和转录,主要为西班牙语母语者。

使用考虑

  • 社会影响: 由于包含自发语音,对ASR社区评估西班牙语的声学模型具有挑战性。
  • 偏见讨论: 数据集旨在性别平衡,词汇限于法律问题。
  • 其他已知限制: 转录文本与LDC或CIEMPIESS-UNAM项目官方网站的版本略有不同,建议使用更新后的转录文本。

附加信息

  • 数据集管理: 由UNAM的"Desarrollo de Tecnologías del Habla"社会服务项目的学生收集和整理。

  • 许可信息: CC-BY-SA-4.0

  • 引用信息:

    @misc{carlosmenaciempiesstest2019, title={CIEMPIESS TEST CORPUS: Audio and Transcripts of Mexican Spanish Broadcast Conversations.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作