five

sulaimank/fleurs_vad

收藏
Hugging Face2024-11-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/sulaimank/fleurs_vad
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频和文本信息,具体特征包括id、path(音频路径,采样率为16000)、raw_sentence(原始句子)、sentence(处理后的句子)、tokens(分词结果)、lang_id(语言ID)和gender(性别)。数据集分为train、dev和test三个部分,分别包含1903、268和612个样本。数据集的下载大小为1386465331字节,总大小为1533803555.361字节。

This dataset contains audio and text information, with specific features including id, path (audio path with a sampling rate of 16000), raw_sentence (original sentence), sentence (processed sentence), tokens (tokenized result), lang_id (language ID), and gender. The dataset is divided into train, dev, and test sections, containing 1903, 268, and 612 samples respectively. The download size of the dataset is 1386465331 bytes, and the total size is 1533803555.361 bytes.
提供机构:
sulaimank
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多模态数据集,包含音频和文本数据,主要用于自动语音识别(ASR)任务。数据以parquet格式存储,规模在1K到10K之间,涵盖了卢干达语等语言的句子,并标注了音频路径、持续时间、原始文本、分词、语言ID和说话者性别等信息。数据集已划分为训练集、开发集和测试集,适用于语音处理和自然语言处理的研究与应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作