five

Indic-LLM-Labs/Fleurs-Kn

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Indic-LLM-Labs/Fleurs-Kn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Fleurs数据集的过滤版本,仅包含卡纳达语(Kannada)的样本。数据集包含2283个训练样本、368个验证样本和838个测试样本。数据集的字段包括音频样本的ID、音频文件的路径、音频对象、原始转录、转录文本、性别、语言ID和语言组ID。数据集主要用于自动语音识别任务。

该数据集是Fleurs数据集的过滤版本,仅包含卡纳达语(Kannada)的样本。数据集包含2283个训练样本、368个验证样本和838个测试样本。数据集的字段包括音频样本的ID、音频文件的路径、音频对象、原始转录、转录文本、性别、语言ID和语言组ID。数据集主要用于自动语音识别任务。
提供机构:
Indic-LLM-Labs
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 验证集:路径为 data/validation-*
    • 测试集:路径为 data/test-*

数据集信息

  • 特征
    • id:类型为 int32
    • num_samples:类型为 int32
    • path:类型为 string
    • audio:包含采样率为 16000 的音频数据
    • transcription:类型为 string
    • raw_transcription:类型为 string
    • gender:类别标签,包括 malefemaleother
    • language:类型为 string
    • lang_group_id

数据集划分

  • 训练集
    • 字节数:1910030202.243
    • 样本数:2283
  • 验证集
    • 字节数:299915580
    • 样本数:368
  • 测试集
    • 字节数:732875657
    • 样本数:838

数据集大小

  • 下载大小:2915269155 字节
  • 数据集大小:2942821439.243 字节

许可证

  • MIT 许可证

任务类别

  • 自动语音识别

语言

  • 卡纳达语

数据样本

python {id: 1053, num_samples: 226560, path: /home/ravi.naik/.cache/huggingface/datasets/downloads/extracted/e7c8b501d4e6892673b6dc291d42de48e7987b0d2aa6471066a671f686224ed1/10000267636955490843.wav, audio: {path: train/10000267636955490843.wav, array: array([ 0. , 0. , 0. , ..., -0.00100893, -0.00109982, -0.00118315]), sampling_rate: 16000}, transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ, raw_transcription: ವಿದೇಶದಲ್ಲಿ ವಾಸಿಸಿದ ನಂತರ ನೀವು ನಿಮ್ಮಊರಿಗೆ ಮರಳಿದಾಗ, ನೀವು ಹೊಸ ಸಂಸ್ಕೃತಿಗೆ ಹೊಂದಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ನಿಮ್ಮ ಕುಟುಂಬ ಸಂಸ್ಕೃತಿಯಿಂದ ಕೆಲವು ಅಭ್ಯಾಸಗಳನ್ನು ಕಳೆದುಕೊಂಡಿದ್ದೀರಿ., gender: 1, lang_id: 47, language: Kannada, lang_group_id: 4}

数据字段

  • id (int):音频样本的ID
  • num_samples (int):浮点值的数量
  • path (str):音频文件的路径
  • audio (dict):包含加载的音频数组、采样率和音频路径的音频对象
  • raw_transcription (str):音频文件的非标准化转录
  • transcription (str):音频文件的转录
  • gender (int):性别的类别ID
  • lang_id (int):语言的类别ID
  • lang_group_id (int):语言组的类别ID
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作