ivangtorre/second_americas_nlp_2022
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ivangtorre/second_americas_nlp_2022
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(qu, gn, bzd, gvc)的音频和文本数据,主要用于自动语音识别和翻译任务。数据集分为多个配置(如bribri, guarani, kotiria, quechua, waikhana),每个配置包含音频、子集、处理后的源文本、原始源文本、原始目标文本和分割信息。数据集分为训练集和开发集,每个集的大小和样本数量也有所不同。
该数据集包含多种语言(qu, gn, bzd, gvc)的音频和文本数据,主要用于自动语音识别和翻译任务。数据集分为多个配置(如bribri, guarani, kotiria, quechua, waikhana),每个配置包含音频、子集、处理后的源文本、原始源文本、原始目标文本和分割信息。数据集分为训练集和开发集,每个集的大小和样本数量也有所不同。
提供机构:
ivangtorre
原始信息汇总
数据集概述
语言支持
- qu
- gn
- bzd
- gvc
许可信息
- 许可:未知
任务类别
- 自动语音识别
- 翻译
数据集配置
bribri
- 特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
- 分割:
- train: 495个样本,55969483字节
- dev: 250个样本,22453830字节
- 下载大小: 78332438字节
- 数据集大小: 78423313字节
guarani
- 特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
- 分割:
- train: 293个样本,37288028字节
- dev: 93个样本,14154952字节
- 下载大小: 85618314字节
- 数据集大小: 51442980字节
kotiria
- 特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
- 分割:
- train: 1972个样本,291865656.624字节
- dev: 254个样本,34442493字节
- 下载大小: 341252496字节
- 数据集大小: 326308149.624字节
quechua
- 特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
- 分割:
- train: 573个样本,192806183字节
- dev: 250个样本,239435023字节
- 下载大小: 862887688字节
- 数据集大小: 432241206字节
waikhana
- 特征:
- audio: 音频
- subset: 字符串
- source_processed: 字符串
- source_raw: 字符串
- target_raw: 字符串
- split: 字符串
- 分割:
- train: 1416个样本,179534399.848字节
- dev: 250个样本,24505677字节
- 下载大小: 203362078字节
- 数据集大小: 204040076.848字节
数据文件配置
- bribri:
- train: bribri/train-*
- dev: bribri/dev-*
- guarani:
- train: guarani/train-*
- dev: guarani/dev-*
- kotiria:
- train: kotiria/train-*
- dev: kotiria/dev-*
- quechua:
- train: quechua/train-*
- dev: quechua/dev-*
- waikhana:
- train: waikhana/train-*
- dev: waikhana/dev-*



