Kannada-LLM-Labs/Fleurs-Kn

Name: Kannada-LLM-Labs/Fleurs-Kn
Creator: Kannada-LLM-Labs
Published: 2024-02-23 14:47:36
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Kannada-LLM-Labs/Fleurs-Kn

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个Fleurs数据集的过滤版本，仅包含卡纳达语样本。数据集包含2283个训练样本、368个验证样本和838个测试样本。数据字段包括音频样本的ID、采样点数、音频文件路径、音频对象、原始转录、转录、性别、语言ID和语言组ID。

提供机构：

Kannada-LLM-Labs

原始信息汇总

数据集概述

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 验证集：路径为 data/validation-*
- 测试集：路径为 data/test-*

数据集信息

特征：
- id：音频样本的ID，类型为 int32
- num_samples：浮点值的数量，类型为 int32
- path：音频文件的路径，类型为 string
- audio：音频对象，包含音频数组、采样率和音频路径，采样率为 16000
- transcription：音频文件的转录文本，类型为 string
- raw_transcription：音频文件的非标准化转录文本，类型为 string
- gender：性别类别ID，类型为 class_label，包含 male、female 和 other
- language：语言，类型为 string
- lang_group_id：语言组ID

数据集划分

训练集：
- 字节数：1910030202.243
- 样本数：2283
验证集：
- 字节数：299915580
- 样本数：368
测试集：
- 字节数：732875657
- 样本数：838

数据集大小

下载大小：2915269155 字节
数据集大小：2942821439.243 字节

许可证

MIT 许可证

任务类别

自动语音识别

语言

卡纳达语 (Kannada)

数据样本

python {id: 1053, num_samples: 226560, path: /home/ravi.naik/.cache/huggingface/datasets/downloads/extracted/e7c8b501d4e6892673b6dc291d42de48e7987b0d2aa6471066a671f686224ed1/10000267636955490843.wav, audio: {path: train/10000267636955490843.wav, array: array([ 0. , 0. , 0. , ..., -0.00100893, -0.00109982, -0.00118315]), sampling_rate: 16000}, transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ, raw_transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ, ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ., gender: 1, lang_id: 47, language: Kannada, lang_group_id: 4}

数据字段

id (int): 音频样本的ID
num_samples (int): 浮点值的数量
path (str): 音频文件的路径
audio (dict): 音频对象，包括加载的音频数组、采样率和音频路径
raw_transcription (str): 音频文件的非标准化转录文本
transcription (str): 音频文件的转录文本
gender (int): 性别类别ID
lang_id (int): 语言类别ID
lang_group_id (int): 语言组ID

使用示例

python from datasets import load_dataset fleurs_kn = load_dataset("Kannada-LLM-Labs/Fleurs-Kn", split="train", streaming=True) print(next(iter(fleurs_kn)))

5,000+

优质数据集

54 个

任务类型

进入经典数据集