jayasuryajsk/google-fleurs-te-romanized

收藏

Hugging Face2024-05-06 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/jayasuryajsk/google-fleurs-te-romanized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件及其转录文本，涵盖了多种语言和性别信息。数据集的特征包括音频文件的ID、样本数量、路径、音频数据、转录文本、原始转录文本、性别、语言ID、语言、语言组ID以及罗马化转录文本。数据集分为训练集和测试集，训练集包含2302个样本，测试集包含472个样本。音频文件的采样率为16000Hz，支持多种语言和性别分类。

该数据集包含音频文件及其转录文本，涵盖了多种语言和性别信息。数据集的特征包括音频文件的ID、样本数量、路径、音频数据、转录文本、原始转录文本、性别、语言ID、语言、语言组ID以及罗马化转录文本。数据集分为训练集和测试集，训练集包含2302个样本，测试集包含472个样本。音频文件的采样率为16000Hz，支持多种语言和性别分类。

提供机构：

jayasuryajsk

原始信息汇总

数据集特征

id：整数类型（int32）
num_samples：整数类型（int32）
path：字符串类型（string）
audio：音频特征，采样率为16000
transcription：字符串类型（string）
raw_transcription：字符串类型（string）
gender：分类标签，包括男性（0）、女性（1）和其他（2）
lang_id：分类标签，包含多种语言代码，如af_za（0）、am_et（1）等
language：字符串类型（string）
lang_group_id：分类标签，包括western_european_we（0）、eastern_european_ee（1）等
romanized_transcription：字符串类型（string）

数据集分割

train：包含2302个样本，总大小为1826333519.522字节
test：包含472个样本，总大小为334348324.0字节

数据集大小

下载大小：2140431805字节
数据集总大小：2160681843.5220003字节

数据集配置

config_name：default
data_files：
- train：路径为data/train-*
- test：路径为data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作