five

google/fleurs|机器翻译数据集|多语言处理数据集

收藏
hugging_face2024-08-25 更新2024-03-04 收录
机器翻译
多语言处理
下载链接:
https://hf-mirror.com/datasets/google/fleurs
下载链接
链接失效反馈
资源简介:
FLEURS是FLoRes机器翻译基准的语音版本,包含102种语言的2009个并行句子,用于评估跨语言、任务、领域和数据制度的语音表示。训练集包含约10小时的监督数据,训练集和开发/测试集的说话者不同。数据集支持自动语音识别、语言识别和检索等任务,并且提供了详细的配置和使用示例。
提供机构:
google
原始信息汇总

数据集概述

数据集名称

  • 名称: FLEURS
  • 全称: The Cross-lingual TRansfer Evaluation of Multilingual Encoders for Speech (XTREME-S) benchmark

数据集描述

  • 目的: 评估跨语言、任务、领域和数据体制的语音表示
  • 覆盖范围: 102种语言,涵盖10+语言家族,3个不同领域和4个任务家族:语音识别、翻译、分类和检索

数据集特性

  • 语言: 包括afr, amh, ara等102种语言
  • 许可证: cc-by-4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 任务类别: 自动语音识别
  • 标签: 语音识别

数据集结构

  • 数据实例: 每个配置包含约1000个训练样本,400个验证和测试样本
  • 数据字段: id, num_samples, path, audio, raw_transcription, transcription, gender, lang_id, lang_group_id

数据集使用

  • 加载方式: 使用datasets库的load_dataset函数
  • 示例代码: 提供Python代码示例,用于加载和处理数据集

数据集创建

  • 录音数量: 每个句子1至3次录音(平均2.3次)
  • 分割: 训练集1509句,开发集150句,测试集350句

数据集考虑

  • 社会影响: 促进全球更多语言的语音技术发展
  • 偏见讨论: 覆盖多种语言,但仍有遗漏
  • 其他限制: 主要关注朗读语音,可能与实际生产环境中的噪音情况不符

附加信息

  • 许可证: 所有数据集均遵循Creative Commons license (CC-BY)
  • 引用信息: 引用时请参考FLEURS论文,arXiv:2205.12446
AI搜集汇总
数据集介绍
main_image_url
构建方式
FLEURS数据集的构建采用多语言并行句子的方式,从FLoRes机器翻译基准中选取了2009种语言的平行句子作为训练数据。每种语言的训练集大约有10小时的语音监督,且训练集的说话者与开发集和测试集的说话者不同。构建过程中,采用了多语言微调,并计算了所有语言的单元错误率,将语言和结果分为七个地理区域。
特点
FLEURS数据集具有多语言特性,包含102种语言,跨越10多个语言家族,涵盖不同的领域和任务类型。数据集注重平衡性别发言分布,并且旨在通过提供多种语言的语音识别技术,促进全球语言的平等技术发展。
使用方法
用户可以通过HuggingFace的datasets库加载和使用FLEURS数据集。支持多种任务,如语音识别、语言识别和检索。数据集可以使用streaming模式进行实时加载,也可以下载到本地。此外,提供了与PyTorch的集成,方便用户直接创建数据加载器。
背景与挑战
背景概述
FLEURS数据集,全称为Few-shot Learning Evaluation of Universal Representations of Speech,是一个专为评估跨语言语音表示的基准而设计的多语言语音数据集。该数据集由Google团队创建于2022年,包含了102种语言的语音数据,跨越了10多个语系,涵盖了西方、东方、中亚、北非、撒哈拉以南非洲、南亚、东南亚以及CJK(中文、日语、韩语)语言区域。FLEURS的构建旨在推动语音识别、翻译、分类和检索等任务在多语言环境下的研究,为不同语言提供平等的科技接入机会。
当前挑战
FLEURS数据集在构建过程中面临的主要挑战包括:1)多语言数据的收集与标注,需要专家、众包以及机器生成注释的结合,以确保数据的多样性和准确性;2)数据集的规模与多样性带来的处理和存储挑战;3)跨语言语音识别中的语言识别和固定大小语音表示的检索问题;4)数据集在语音类型上的局限性,主要集中于读语音,而实际应用中可能存在的噪声环境对模型性能的影响。
常用场景
经典使用场景
FLEURS数据集的经典使用场景在于评估跨语言的语音表示在各种语言、任务、领域和数据体制下的性能。该数据集覆盖了102种语言,被广泛应用于语音识别、翻译、分类和检索等任务,例如,通过多语言微调来训练自动语音识别模型,或用于语言识别模型以识别不同语言的语音片段。
实际应用
在实际应用中,FLEURS数据集可用于提升语音识别系统的多语言支持能力,使得技术能够覆盖更多语言,促进语音技术在全球化背景下的普及,并为不同语言的用户提供平等的科技接入机会。
衍生相关工作
基于FLEURS数据集,研究者们已经开展了一系列相关工作,包括构建多语言语音识别模型、语言识别系统以及探索固定大小的语音表示在检索任务中的应用,推动了语音处理领域的研究进展和技术创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

凯斯西储大学滚动轴承数据集(CWRU)

美国凯斯西储大学提供的滚动轴承数据集,包括了正常数据、轴承外圈故障数据、内圈故障数据、滚动体故障数据,可用于建立故障诊断分类任务

AI_Studio 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CRACK500

For the details of the work, the readers are refer to the paper "Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection" (FPHB), T-ITS 2019. You can find the paper in https://www.researchgate.net/publication/330244656_Feature_Pyramid_and_Hierarchical_Boosting_Network_for_Pavement_Crack_Detection or https://arxiv.org/abs/1901.06340.

Papers with Code 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

K-Lane

K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。

arXiv 收录