ankur02/fleurs
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ankur02/fleurs
下载链接
链接失效反馈官方服务:
资源简介:
FLEURS是FLoRes机器翻译基准的语音版本,包含102种语言的2009个并行句子。该数据集用于评估跨语言、任务、领域和数据制度的语音表示,涵盖了语音识别、翻译、分类和检索四个任务家族。训练集大约有10小时的监督数据,训练集的说话者与开发/测试集的说话者不同。数据集支持多语言微调,并提供了详细的地区分类。FLEURS数据集旨在鼓励全球更多语言的语音技术发展,目标是让每个人都能平等地获得语音识别或语音翻译等技术。
FLEURS是FLoRes机器翻译基准的语音版本,包含102种语言的2009个并行句子。该数据集用于评估跨语言、任务、领域和数据制度的语音表示,涵盖了语音识别、翻译、分类和检索四个任务家族。训练集大约有10小时的监督数据,训练集的说话者与开发/测试集的说话者不同。数据集支持多语言微调,并提供了详细的地区分类。FLEURS数据集旨在鼓励全球更多语言的语音技术发展,目标是让每个人都能平等地获得语音识别或语音翻译等技术。
提供机构:
ankur02
原始信息汇总
FLEURS 数据集概述
数据集描述
- 数据集名称: FLEURS
- 数据集类型: 语音数据集
- 数据集用途: 用于自动语音识别、语言识别和检索任务
- 数据集版本: 包含102种语言,覆盖10+语言家族,3个不同领域和4个任务家族
- 数据集大小: 约350 GB
- 数据集许可: CC-BY-4.0
数据集结构
数据实例
- 示例语言: 南非荷兰语 (af_za)
- 数据实例大小: 下载文件大小1.47 GB,生成数据大小1 MB,总磁盘使用1.47 GB
- 数据实例示例: json { "id": 91, "num_samples": 385920, "path": "/path/to/audio/file.wav", "audio": { "path": "/path/to/audio/file.wav", "array": [...], "sampling_rate": 16000 }, "raw_transcription": "Dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin", "transcription": "dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin", "gender": 0, "lang_id": 0, "language": "Afrikaans", "lang_group_id": 3 }
数据字段
- id: 音频样本ID
- num_samples: 浮点值数量
- path: 音频文件路径
- audio: 包含音频数组、采样率和音频路径的音频对象
- raw_transcription: 非规范化的音频文件转录
- transcription: 音频文件转录
- gender: 性别类别ID
- lang_id: 语言类别ID
- lang_group_id: 语言组类别ID
数据分割
- 训练集: 约1000个样本
- 验证集: 约400个样本
- 测试集: 约400个样本
数据集创建
- 数据收集: 每个句子收集1到3个录音,平均2.3个录音
- 数据分割: 训练集1509个句子,验证集150个句子,测试集350个句子
使用数据集的注意事项
社会影响
- 目标: 促进全球更多语言的语音技术发展,提供平等的技术访问
偏见讨论
- 语言覆盖: 虽然覆盖多种语言,但仍有许多重要语言未被包含
- 语音类型: 主要关注朗读语音,与实际生产中的噪声环境存在差异
其他已知限制
- 语音类型: 主要关注朗读语音,与实际生产中的噪声环境存在差异
附加信息
引用信息
- 论文: FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech
- 引用格式: bibtex @article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal = {arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }
贡献者
- 贡献者: @patrickvonplaten, @aconneau



