Indic-LLM-Labs/Fleurs-Kn
收藏数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
- 特征:
- id:类型为
int32 - num_samples:类型为
int32 - path:类型为
string - audio:包含采样率为
16000的音频数据 - transcription:类型为
string - raw_transcription:类型为
string - gender:类别标签,包括
male、female和other - language:类型为
string - lang_group_id
- id:类型为
数据集划分
- 训练集:
- 字节数:1910030202.243
- 样本数:2283
- 验证集:
- 字节数:299915580
- 样本数:368
- 测试集:
- 字节数:732875657
- 样本数:838
数据集大小
- 下载大小:2915269155 字节
- 数据集大小:2942821439.243 字节
许可证
- MIT 许可证
任务类别
- 自动语音识别
语言
- 卡纳达语
数据样本
python {id: 1053, num_samples: 226560, path: /home/ravi.naik/.cache/huggingface/datasets/downloads/extracted/e7c8b501d4e6892673b6dc291d42de48e7987b0d2aa6471066a671f686224ed1/10000267636955490843.wav, audio: {path: train/10000267636955490843.wav, array: array([ 0. , 0. , 0. , ..., -0.00100893, -0.00109982, -0.00118315]), sampling_rate: 16000}, transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ, raw_transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ, ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ., gender: 1, lang_id: 47, language: Kannada, lang_group_id: 4}
数据字段
- id (int):音频样本的ID
- num_samples (int):浮点值的数量
- path (str):音频文件的路径
- audio (dict):包含加载的音频数组、采样率和音频路径的音频对象
- raw_transcription (str):音频文件的非标准化转录
- transcription (str):音频文件的转录
- gender (int):性别的类别ID
- lang_id (int):语言的类别ID
- lang_group_id (int):语言组的类别ID



