ivangtorre/second_americas_nlp_2022

Name: ivangtorre/second_americas_nlp_2022
Creator: ivangtorre
Published: 2024-05-14 20:58:10
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ivangtorre/second_americas_nlp_2022

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言（qu, gn, bzd, gvc）的音频和文本数据，主要用于自动语音识别和翻译任务。数据集分为多个配置（如bribri, guarani, kotiria, quechua, waikhana），每个配置包含音频、子集、处理后的源文本、原始源文本、原始目标文本和分割信息。数据集分为训练集和开发集，每个集的大小和样本数量也有所不同。

提供机构：

ivangtorre

原始信息汇总

数据集概述

语言支持

许可信息

许可：未知

任务类别

自动语音识别
翻译

数据集配置

bribri

特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
分割:
- train: 495个样本，55969483字节
- dev: 250个样本，22453830字节
下载大小: 78332438字节
数据集大小: 78423313字节

guarani

特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
分割:
- train: 293个样本，37288028字节
- dev: 93个样本，14154952字节
下载大小: 85618314字节
数据集大小: 51442980字节

kotiria

特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
分割:
- train: 1972个样本，291865656.624字节
- dev: 254个样本，34442493字节
下载大小: 341252496字节
数据集大小: 326308149.624字节

quechua

特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
分割:
- train: 573个样本，192806183字节
- dev: 250个样本，239435023字节
下载大小: 862887688字节
数据集大小: 432241206字节

waikhana

特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
分割:
- train: 1416个样本，179534399.848字节
- dev: 250个样本，24505677字节
下载大小: 203362078字节
数据集大小: 204040076.848字节

数据文件配置

bribri:
- train: bribri/train-*
- dev: bribri/dev-*
guarani:
- train: guarani/train-*
- dev: guarani/dev-*
kotiria:
- train: kotiria/train-*
- dev: kotiria/dev-*
quechua:
- train: quechua/train-*
- dev: quechua/dev-*
waikhana:
- train: waikhana/train-*
- dev: waikhana/dev-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集