gabrielrstan/CORAA-v1.1

Name: gabrielrstan/CORAA-v1.1
Creator: gabrielrstan
Published: 2022-12-28 23:15:17
License: 暂无描述

Hugging Face2022-12-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gabrielrstan/CORAA-v1.1

下载链接

链接失效反馈

官方服务：

资源简介：

CORAA-v1.1是一个用于巴西葡萄牙语自动语音识别（ASR）的公开数据集，包含290.77小时的音频及其相应的转录（超过40万段音频）。数据集由5个原始项目的音频组成，包括ALIP、C-ORAL Brazil、NURC-Recife、SP-2010和TEDx talks。音频经过注释者验证或首次转录，旨在用于ASR任务。数据集的元数据包括文件路径、任务类型（转录、注释或两者）、语言变体（欧洲葡萄牙语或巴西葡萄牙语）、数据集来源、口音、语音类型（访谈、对话、独白等）、语音风格（自发、准备或朗读）、以及各种注释投票信息（如犹豫、填充停顿、噪音或低音、第二声音等）。

提供机构：

gabrielrstan

原始信息汇总

CORAA-v1.1 数据集概述

数据集描述

CORAA-v1.1 是一个公开的自动语音识别（ASR）数据集，专门针对巴西葡萄牙语。该数据集包含290.77小时的音频及其对应的转录文本，总计超过400,000个分割音频。数据集由以下五个原始项目组成：

ALIP (Gonçalves, 2019)
C-ORAL Brazil (Raso and Mello, 2012)
NURC-Recife (Oliviera Jr., 2016)
SP-2010 (Mendes and Oushiro, 2012)
TEDx talks (葡萄牙语演讲)

音频文件经过标注者验证或首次转录，旨在服务于ASR任务。

元数据信息

数据集的元数据包括以下属性：

file_path: 音频文件路径
task: 转录（标注者审核原始转录）；标注（标注者根据votes_for_*指标对音频-转录对进行分类）；标注与转录（两项任务均执行）
variety: 欧洲葡萄牙语（PT_PT）或巴西葡萄牙语（PT_BR）
dataset: 五个数据集之一（ALIP, C-oral Brasil, NURC-RE, SP2010, TEDx Portuguese）
accent: 四种口音之一（米纳斯吉拉斯州、累西腓、圣保罗市、圣保罗首都）或“其他”
speech_genre: 访谈、对话、独白、会话、会议、课堂讨论、舞台演讲或阅读
speech_style: 即兴演讲、准备演讲或朗读演讲
up_votes: 标注时，验证音频的投票数（大多数音频由一个标注者审核，部分音频由多个标注者分析）
down_votes: 标注时，使音频无效的投票数（总是小于up_votes）
votes_for_hesitation: 标注时，将音频分类为包含犹豫现象的投票数
votes_for_filled_pause: 标注时，将音频分类为包含填充停顿现象的投票数
votes_for_noise_or_low_voice: 标注时，将音频分类为包含噪音或低声，但不影响音频压缩的投票数
votes_for_second_voice: 标注时，将音频分类为包含第二声音，但不影响音频压缩的投票数
votes_for_no_identified_problem: 标注时，将音频分类为没有上述四种现象的投票数
text: 音频的转录文本

下载链接

数据集的训练、开发和测试部分均可通过以下链接下载：

训练数据
- 音频：Google Drive | 内部 | Hugging Face
- 转录文本及元数据：Google Drive | 内部 | Hugging Face
开发数据
- 音频：Google Drive | 内部 | Hugging Face
- 转录文本及元数据：Google Drive | 内部 | Hugging Face
测试数据
- 音频：Google Drive | 内部 | Hugging Face
- 转录文本及元数据：Google Drive | 内部 | Hugging Face

5,000+

优质数据集

54 个

任务类型

进入经典数据集