developeranalyser/new_train_data

Name: developeranalyser/new_train_data
Creator: developeranalyser
Published: 2024-04-16 11:55:46
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/developeranalyser/new_train_data

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS是FLoRes机器翻译基准的语音版本，包含102种语言的2009个n-way平行句子。该数据集用于评估跨语言、任务、领域和数据制度的语音表示，涵盖了语音识别、翻译、分类和检索四个任务家族。数据集支持多语言微调，并将所有语言的“单位错误率”（字符、符号）进行平均。数据集还按七个地理区域对语言和结果进行了分组。

提供机构：

developeranalyser

原始信息汇总

数据集概述

名称: FLEURS

描述: FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）是一个用于评估跨语言语音表示的基准，涵盖102种语言，跨越10多个语言家族，涉及语音识别、翻译、分类和检索等4个任务家族。

语言: 包含102种语言，如Afrikaans, Amharic, Arabic等。

许可: CC-BY-4.0

多语言性: 多语言

大小: 10K<n<100K

任务类别: 自动语音识别

数据集创建: 数据集包含专家生成、众包和机器生成的注释，以及众包和专家生成的语言创建。

数据集结构

数据实例: 每个实例包含音频文件的路径、音频数组、采样率、非规范化转录和规范化转录等。
数据字段: 包括id、num_samples、path、audio、raw_transcription、transcription、gender、lang_id、language、lang_group_id。
数据分割: 每个配置包含训练集、验证集和测试集，分别包含约1000、150和350个示例。

使用方法

加载数据集: 使用datasets库的load_dataset函数加载数据集，支持本地加载和流式加载。
示例脚本: 提供用于训练CTC或Seq2Seq自动语音识别模型和语言识别模型的示例脚本。
任务支持: 支持语音识别、语言识别和检索任务。

数据集创建和使用注意事项

社会影响: 旨在促进全球更多语言的语音技术发展，提供平等的技术访问。
偏见讨论: 虽然覆盖多种语言，但仍缺少一些重要语言。
其他限制: 主要关注读语音，可能与实际生产环境中的噪音设置存在性能差异。

5,000+

优质数据集

54 个

任务类型

进入经典数据集