Indic-LLM-Labs/Fleurs-Kn

Name: Indic-LLM-Labs/Fleurs-Kn
Creator: Indic-LLM-Labs
Published: 2024-02-23 14:48:21
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Indic-LLM-Labs/Fleurs-Kn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Fleurs数据集的过滤版本，仅包含卡纳达语（Kannada）的样本。数据集包含2283个训练样本、368个验证样本和838个测试样本。数据集的字段包括音频样本的ID、音频文件的路径、音频对象、原始转录、转录文本、性别、语言ID和语言组ID。数据集主要用于自动语音识别任务。

提供机构：

Indic-LLM-Labs

原始信息汇总

数据集概述

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 验证集：路径为 data/validation-*
- 测试集：路径为 data/test-*

数据集信息

特征：
- id：类型为 int32
- num_samples：类型为 int32
- path：类型为 string
- audio：包含采样率为 16000 的音频数据
- transcription：类型为 string
- raw_transcription：类型为 string
- gender：类别标签，包括 male、female 和 other
- language：类型为 string
- lang_group_id

数据集划分

训练集：
- 字节数：1910030202.243
- 样本数：2283
验证集：
- 字节数：299915580
- 样本数：368
测试集：
- 字节数：732875657
- 样本数：838

数据集大小

下载大小：2915269155 字节
数据集大小：2942821439.243 字节

许可证

MIT 许可证

任务类别

自动语音识别

语言

卡纳达语

数据样本

python {id: 1053, num_samples: 226560, path: /home/ravi.naik/.cache/huggingface/datasets/downloads/extracted/e7c8b501d4e6892673b6dc291d42de48e7987b0d2aa6471066a671f686224ed1/10000267636955490843.wav, audio: {path: train/10000267636955490843.wav, array: array([ 0. , 0. , 0. , ..., -0.00100893, -0.00109982, -0.00118315]), sampling_rate: 16000}, transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ, raw_transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ, ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ., gender: 1, lang_id: 47, language: Kannada, lang_group_id: 4}

数据字段

id (int)：音频样本的ID
num_samples (int)：浮点值的数量
path (str)：音频文件的路径
audio (dict)：包含加载的音频数组、采样率和音频路径的音频对象
raw_transcription (str)：音频文件的非标准化转录
transcription (str)：音频文件的转录
gender (int)：性别的类别ID
lang_id (int)：语言的类别ID
lang_group_id (int)：语言组的类别ID

5,000+

优质数据集

54 个

任务类型

进入经典数据集