ciempiess/ciempiess_fem
收藏数据集卡片 for ciempiess_fem
数据集描述
数据集摘要
CIEMPIESS FEM 语料库是通过录制和人工转录21名不同女性的音频创建的。其中16名女性来自墨西哥,其他来自拉丁美洲国家。该语料库旨在平衡未来性别不平衡的数据集。
支持的任务
- 自动语音识别(ASR):该数据集可用于测试自动语音识别模型的性能,模型接收音频文件并将其转录为书面文本。主要的评估指标是词错误率(WER)。
语言
该语料库的语言为西班牙语。
数据集结构
数据实例
python { audio_id: CMPF_F_05_MEX_0387, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/8a3e27631315b39636ac51affc04585335f9699f9635269c49f7938936aa60b8/train/mexican/F_05/CMPF_F_05_MEX_0387.flac, array: array([0.0090332 , 0.0151062 , 0.01257324, ..., 0.01861572, 0.01797485, 0.02017212], dtype=float32), sampling_rate: 16000 }, speaker_id: F_05, gender: female, duration: 4.979000091552734, country: Mexico, normalized_text: entre dos o más personas pero eh tienen que darse de manera }
数据字段
audio_id(string) - 音频片段的IDaudio(datasets.Audio) - 包含音频路径、解码的音频数组和采样率的字典speaker_id(string) - 说话者的IDgender(string) - 说话者的性别(男性或女性)duration(float32) - 音频文件的持续时间(秒)country(string) - 说话者的国家normalized_text(string) - 音频片段的标准化转录文本
数据分割
该语料库仅包含训练集,共有6505个来自21名女性说话者的语音文件,总时长为13小时54分钟。
数据集创建
策划理由
CIEMPIESS FEM(CF)语料库具有以下特点:
- 共有6505个音频文件,来自21名不同女性,总时长为13小时54分钟。
- 每个音频文件的持续时间大约在5到10秒之间。
- 数据按说话者和国家分类,便于选择特定说话者的音频进行实验。
- 音频文件类型与第一个CIEMPIESS语料库相同,说话者讨论法律和律师相关问题,以及与UNAM大学和UNAM法学院相关的内容。
- 转录由人工完成。
- CF中的说话者未出现在其他CIEMPIESS数据集中。
- 音频文件以16kHz@16bit单声道格式分发。
源数据
CIEMPIESS FEM是一个广播语料库,旨在训练自动语音识别的声学模型,由西班牙语中广播主持人与嘉宾之间的即兴对话录音组成。大部分对话带有墨西哥中部口音。所有录音来自UNAM的RADIO-IUS广播电台,仅供学术和研究用途使用。
注释
注释过程如下:
- 手动分割整个播客,保留包含高质量语音的部分。
- 进行第二次分割,分离说话者并将其放入不同文件夹。
- 持续时间为5到10秒的语音文件由来自不同系(计算、工程、语言学)的学生转录,大部分是母语者,但未接受过专门的转录训练。
个人和敏感信息
数据集中可能包含揭示说话者身份的姓名,但由于录音来自公开播客,参与者并无匿名意图。使用者同意不尝试确定数据集中说话者的身份。
使用数据的注意事项
数据集的社会影响
该数据集因其包含即兴语音而具有价值。
偏见讨论
数据集性别不平衡,包含6505个来自21名不同女性的音频文件,词汇局限于法律问题。
其他已知限制
"CIEMPIESS FEM CORPUS" 由 Carlos Daniel Hernández Mena 根据 Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可证授权,希望对使用者有所帮助,但没有任何保证,不包括任何明示或暗示的保证,如适销性和特定用途的适用性。
数据集策展人
数据集由社会服务项目“Desarrollo de Tecnologías del Habla”的学生收集,由 Carlos Daniel Hernández Mena 于2018年策展。
许可信息
引用信息
@misc{carlosmenaciempiessfem2019, title={CIEMPIESS FEM CORPUS: Audio and Transcripts of Female Speakers in Spanish.}, ldc_catalog_no={LDC2019S07}, DOI={https://doi.org/10.35111/xdx5-n815}, author={Hernandez Mena, Carlos Daniel}, journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2019S07}, }
贡献
作者感谢 Alejandro V. Mena, Elena Vera 和 Angélica Gutiérrez 对社会服务项目“Desarrollo de Tecnologías del Habla”的支持,以及社会服务学生的辛勤工作。



