Kannada-LLM-Labs/Fleurs-Kn
收藏数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
- 特征:
- id:音频样本的ID,类型为
int32 - num_samples:浮点值的数量,类型为
int32 - path:音频文件的路径,类型为
string - audio:音频对象,包含音频数组、采样率和音频路径,采样率为
16000 - transcription:音频文件的转录文本,类型为
string - raw_transcription:音频文件的非标准化转录文本,类型为
string - gender:性别类别ID,类型为
class_label,包含male、female和other - language:语言,类型为
string - lang_group_id:语言组ID
- id:音频样本的ID,类型为
数据集划分
- 训练集:
- 字节数:1910030202.243
- 样本数:2283
- 验证集:
- 字节数:299915580
- 样本数:368
- 测试集:
- 字节数:732875657
- 样本数:838
数据集大小
- 下载大小:2915269155 字节
- 数据集大小:2942821439.243 字节
许可证
- MIT 许可证
任务类别
- 自动语音识别
语言
- 卡纳达语 (Kannada)
数据样本
python {id: 1053, num_samples: 226560, path: /home/ravi.naik/.cache/huggingface/datasets/downloads/extracted/e7c8b501d4e6892673b6dc291d42de48e7987b0d2aa6471066a671f686224ed1/10000267636955490843.wav, audio: {path: train/10000267636955490843.wav, array: array([ 0. , 0. , 0. , ..., -0.00100893, -0.00109982, -0.00118315]), sampling_rate: 16000}, transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ, raw_transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ, ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ., gender: 1, lang_id: 47, language: Kannada, lang_group_id: 4}
数据字段
- id (int): 音频样本的ID
- num_samples (int): 浮点值的数量
- path (str): 音频文件的路径
- audio (dict): 音频对象,包括加载的音频数组、采样率和音频路径
- raw_transcription (str): 音频文件的非标准化转录文本
- transcription (str): 音频文件的转录文本
- gender (int): 性别类别ID
- lang_id (int): 语言类别ID
- lang_group_id (int): 语言组ID
使用示例
python from datasets import load_dataset fleurs_kn = load_dataset("Kannada-LLM-Labs/Fleurs-Kn", split="train", streaming=True) print(next(iter(fleurs_kn)))



