cahya/fleurs
收藏FLEURS 数据集概述
数据集描述
- 数据集名称: FLEURS
- 数据集类型: 语音数据集
- 数据集用途: 用于语音识别、语言识别和检索任务
- 数据集版本: 最新版本
- 数据集大小: 约 350 GB
数据集创建者
- 标注创建者: 专家生成、众包、机器生成
- 语言创建者: 众包、专家生成
支持的语言
数据集涵盖 102 种语言,包括但不限于:
- 非洲语言:阿非利卡语、阿姆哈拉语、富拉语等
- 欧洲语言:英语、法语、德语、西班牙语等
- 亚洲语言:汉语、日语、韩语、印地语等
- 其他地区语言:阿拉伯语、希伯来语、土耳其语等
数据集许可
- 许可类型: CC-BY-4.0
数据集结构
数据实例
以 af_za 配置为例:
- 下载数据集文件大小: 1.47 GB
- 生成数据集大小: 1 MB
- 总磁盘使用量: 1.47 GB
数据字段
- id: 音频样本的 ID
- num_samples: 浮点值的数量
- path: 音频文件的路径
- audio: 包含音频数组、采样率和音频路径的音频对象
- raw_transcription: 非规范化的音频文件转录
- transcription: 音频文件的转录
- gender: 性别类 ID
- lang_id: 语言类 ID
- lang_group_id: 语言组类 ID
数据分割
每个配置包含:
- 训练集: 约 1000 个样本
- 验证集: 约 400 个样本
- 测试集: 约 400 个样本
数据集创建
每个句子收集 1 到 3 个录音(平均 2.3 个),构建新的训练-开发-测试分割,分别包含 1509、150 和 350 个句子。
使用数据集的注意事项
社会影响
该数据集旨在鼓励全球更多语言的语音技术发展,提供平等的技术访问机会,如语音识别或语音翻译。
偏见讨论
尽管数据集涵盖了许多语言,但仍有许多同样重要的语言未被包含。我们相信通过 FLEURS 构建的技术应能泛化到所有语言。
其他已知限制
数据集主要关注朗读语音,因为常见的评估基准如 CoVoST-2 或 LibriSpeech 也评估这种类型的语音。在更嘈杂的环境中,性能可能会有所不同。
附加信息
引用信息
访问 FLEURS 论文:https://arxiv.org/abs/2205.12446 引用格式:
@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }
贡献者
感谢 @patrickvonplaten 和 @aconneau 添加此数据集。




