five

ivangtorre/second_americas_nlp_2022

收藏
Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ivangtorre/second_americas_nlp_2022
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言(qu, gn, bzd, gvc)的音频和文本数据,主要用于自动语音识别和翻译任务。数据集分为多个配置(如bribri, guarani, kotiria, quechua, waikhana),每个配置包含音频、子集、处理后的源文本、原始源文本、原始目标文本和分割信息。数据集分为训练集和开发集,每个集的大小和样本数量也有所不同。

该数据集包含多种语言(qu, gn, bzd, gvc)的音频和文本数据,主要用于自动语音识别和翻译任务。数据集分为多个配置(如bribri, guarani, kotiria, quechua, waikhana),每个配置包含音频、子集、处理后的源文本、原始源文本、原始目标文本和分割信息。数据集分为训练集和开发集,每个集的大小和样本数量也有所不同。
提供机构:
ivangtorre
原始信息汇总

数据集概述

语言支持

  • qu
  • gn
  • bzd
  • gvc

许可信息

  • 许可:未知

任务类别

  • 自动语音识别
  • 翻译

数据集配置

bribri
  • 特征:
    • audio: 音频
    • subset: 字符串
    • source_processed: 字符串
    • source_raw: 字符串
    • target_raw: 字符串
    • split: 字符串
  • 分割:
    • train: 495个样本,55969483字节
    • dev: 250个样本,22453830字节
  • 下载大小: 78332438字节
  • 数据集大小: 78423313字节
guarani
  • 特征:
    • audio: 音频
    • subset: 字符串
    • source_processed: 字符串
    • source_raw: 字符串
    • target_raw: 字符串
    • split: 字符串
  • 分割:
    • train: 293个样本,37288028字节
    • dev: 93个样本,14154952字节
  • 下载大小: 85618314字节
  • 数据集大小: 51442980字节
kotiria
  • 特征:
    • audio: 音频
    • subset: 字符串
    • source_processed: 字符串
    • source_raw: 字符串
    • target_raw: 字符串
    • split: 字符串
  • 分割:
    • train: 1972个样本,291865656.624字节
    • dev: 254个样本,34442493字节
  • 下载大小: 341252496字节
  • 数据集大小: 326308149.624字节
quechua
  • 特征:
    • audio: 音频
    • subset: 字符串
    • source_processed: 字符串
    • source_raw: 字符串
    • target_raw: 字符串
    • split: 字符串
  • 分割:
    • train: 573个样本,192806183字节
    • dev: 250个样本,239435023字节
  • 下载大小: 862887688字节
  • 数据集大小: 432241206字节
waikhana
  • 特征:
    • audio: 音频
    • subset: 字符串
    • source_processed: 字符串
    • source_raw: 字符串
    • target_raw: 字符串
    • split: 字符串
  • 分割:
    • train: 1416个样本,179534399.848字节
    • dev: 250个样本,24505677字节
  • 下载大小: 203362078字节
  • 数据集大小: 204040076.848字节

数据文件配置

  • bribri:
    • train: bribri/train-*
    • dev: bribri/dev-*
  • guarani:
    • train: guarani/train-*
    • dev: guarani/dev-*
  • kotiria:
    • train: kotiria/train-*
    • dev: kotiria/dev-*
  • quechua:
    • train: quechua/train-*
    • dev: quechua/dev-*
  • waikhana:
    • train: waikhana/train-*
    • dev: waikhana/dev-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作