gabrielrstan/CORAA-v1.1
收藏Hugging Face2022-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gabrielrstan/CORAA-v1.1
下载链接
链接失效反馈官方服务:
资源简介:
CORAA-v1.1是一个用于巴西葡萄牙语自动语音识别(ASR)的公开数据集,包含290.77小时的音频及其相应的转录(超过40万段音频)。数据集由5个原始项目的音频组成,包括ALIP、C-ORAL Brazil、NURC-Recife、SP-2010和TEDx talks。音频经过注释者验证或首次转录,旨在用于ASR任务。数据集的元数据包括文件路径、任务类型(转录、注释或两者)、语言变体(欧洲葡萄牙语或巴西葡萄牙语)、数据集来源、口音、语音类型(访谈、对话、独白等)、语音风格(自发、准备或朗读)、以及各种注释投票信息(如犹豫、填充停顿、噪音或低音、第二声音等)。
提供机构:
gabrielrstan
原始信息汇总
CORAA-v1.1 数据集概述
数据集描述
CORAA-v1.1 是一个公开的自动语音识别(ASR)数据集,专门针对巴西葡萄牙语。该数据集包含290.77小时的音频及其对应的转录文本,总计超过400,000个分割音频。数据集由以下五个原始项目组成:
- ALIP (Gonçalves, 2019)
- C-ORAL Brazil (Raso and Mello, 2012)
- NURC-Recife (Oliviera Jr., 2016)
- SP-2010 (Mendes and Oushiro, 2012)
- TEDx talks (葡萄牙语演讲)
音频文件经过标注者验证或首次转录,旨在服务于ASR任务。
元数据信息
数据集的元数据包括以下属性:
- file_path: 音频文件路径
- task: 转录(标注者审核原始转录);标注(标注者根据
votes_for_*指标对音频-转录对进行分类);标注与转录(两项任务均执行) - variety: 欧洲葡萄牙语(PT_PT)或巴西葡萄牙语(PT_BR)
- dataset: 五个数据集之一(ALIP, C-oral Brasil, NURC-RE, SP2010, TEDx Portuguese)
- accent: 四种口音之一(米纳斯吉拉斯州、累西腓、圣保罗市、圣保罗首都)或“其他”
- speech_genre: 访谈、对话、独白、会话、会议、课堂讨论、舞台演讲或阅读
- speech_style: 即兴演讲、准备演讲或朗读演讲
- up_votes: 标注时,验证音频的投票数(大多数音频由一个标注者审核,部分音频由多个标注者分析)
- down_votes: 标注时,使音频无效的投票数(总是小于
up_votes) - votes_for_hesitation: 标注时,将音频分类为包含犹豫现象的投票数
- votes_for_filled_pause: 标注时,将音频分类为包含填充停顿现象的投票数
- votes_for_noise_or_low_voice: 标注时,将音频分类为包含噪音或低声,但不影响音频压缩的投票数
- votes_for_second_voice: 标注时,将音频分类为包含第二声音,但不影响音频压缩的投票数
- votes_for_no_identified_problem: 标注时,将音频分类为没有上述四种现象的投票数
- text: 音频的转录文本
下载链接
数据集的训练、开发和测试部分均可通过以下链接下载:
-
训练数据
- 音频:Google Drive | 内部 | Hugging Face
- 转录文本及元数据:Google Drive | 内部 | Hugging Face
-
开发数据
- 音频:Google Drive | 内部 | Hugging Face
- 转录文本及元数据:Google Drive | 内部 | Hugging Face
-
测试数据
- 音频:Google Drive | 内部 | Hugging Face
- 转录文本及元数据:Google Drive | 内部 | Hugging Face



