mekaneeky/Processed-Luganda-SpeechT5-with-SALT-translation-11-7-23-val-only
收藏Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mekaneeky/Processed-Luganda-SpeechT5-with-SALT-translation-11-7-23-val-only
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
sequence:
sequence: float32
- name: input_ids
sequence: int32
- name: attention_mask
sequence: int8
- name: encoder_input_values
sequence:
sequence: float32
- name: encoder_attention_mask
sequence:
sequence: int32
- name: acholi_transcription
dtype: string
- name: lugbara_transcription
dtype: string
- name: english_transcription
dtype: string
- name: runyankole_transcription
dtype: string
- name: ateso_transcription
dtype: string
splits:
- name: validation
num_bytes: 547401321
num_examples: 407
download_size: 133710904
dataset_size: 547401321
---
# Dataset Card for "Processed-Luganda-SpeechT5-with-SALT-translation-11-7-23-val-only"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
mekaneeky
原始信息汇总
数据集概述
数据集名称
- 名称: Processed-Luganda-SpeechT5-with-SALT-translation-11-7-23-val-only
数据集特征
- 音频 (
audio): 序列类型为float32。 - 输入ID (
input_ids): 序列类型为int32。 - 注意力掩码 (
attention_mask): 序列类型为int8。 - 编码器输入值 (
encoder_input_values): 序列类型为float32。 - 编码器注意力掩码 (
encoder_attention_mask): 序列类型为int32。 - 阿乔利转录 (
acholi_transcription): 数据类型为string。 - 卢干达转录 (
lugbara_transcription): 数据类型为string。 - 英语转录 (
english_transcription): 数据类型为string。 - 兰扬科勒转录 (
runyankole_transcription): 数据类型为string。 - 阿泰索转录 (
ateso_transcription): 数据类型为string。
数据集分割
- 验证集 (
validation):- 示例数量: 407
- 数据大小: 547401321字节
数据集大小
- 下载大小: 133710904字节
- 数据集总大小: 547401321字节



