five

google/fleurs|机器翻译数据集|多语言处理数据集

收藏
hugging_face2024-08-25 更新2024-03-04 收录
机器翻译
多语言处理
下载链接:
https://hf-mirror.com/datasets/google/fleurs
下载链接
链接失效反馈
资源简介:
FLEURS是FLoRes机器翻译基准的语音版本,包含102种语言的2009个并行句子,用于评估跨语言、任务、领域和数据制度的语音表示。训练集包含约10小时的监督数据,训练集和开发/测试集的说话者不同。数据集支持自动语音识别、语言识别和检索等任务,并且提供了详细的配置和使用示例。
提供机构:
google
原始信息汇总

数据集概述

数据集名称

  • 名称: FLEURS
  • 全称: The Cross-lingual TRansfer Evaluation of Multilingual Encoders for Speech (XTREME-S) benchmark

数据集描述

  • 目的: 评估跨语言、任务、领域和数据体制的语音表示
  • 覆盖范围: 102种语言,涵盖10+语言家族,3个不同领域和4个任务家族:语音识别、翻译、分类和检索

数据集特性

  • 语言: 包括afr, amh, ara等102种语言
  • 许可证: cc-by-4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 任务类别: 自动语音识别
  • 标签: 语音识别

数据集结构

  • 数据实例: 每个配置包含约1000个训练样本,400个验证和测试样本
  • 数据字段: id, num_samples, path, audio, raw_transcription, transcription, gender, lang_id, lang_group_id

数据集使用

  • 加载方式: 使用datasets库的load_dataset函数
  • 示例代码: 提供Python代码示例,用于加载和处理数据集

数据集创建

  • 录音数量: 每个句子1至3次录音(平均2.3次)
  • 分割: 训练集1509句,开发集150句,测试集350句

数据集考虑

  • 社会影响: 促进全球更多语言的语音技术发展
  • 偏见讨论: 覆盖多种语言,但仍有遗漏
  • 其他限制: 主要关注朗读语音,可能与实际生产环境中的噪音情况不符

附加信息

  • 许可证: 所有数据集均遵循Creative Commons license (CC-BY)
  • 引用信息: 引用时请参考FLEURS论文,arXiv:2205.12446
AI搜集汇总
数据集介绍
main_image_url
构建方式
FLEURS数据集的构建采用多语言并行句子的方式,从FLoRes机器翻译基准中选取了2009种语言的平行句子作为训练数据。每种语言的训练集大约有10小时的语音监督,且训练集的说话者与开发集和测试集的说话者不同。构建过程中,采用了多语言微调,并计算了所有语言的单元错误率,将语言和结果分为七个地理区域。
特点
FLEURS数据集具有多语言特性,包含102种语言,跨越10多个语言家族,涵盖不同的领域和任务类型。数据集注重平衡性别发言分布,并且旨在通过提供多种语言的语音识别技术,促进全球语言的平等技术发展。
使用方法
用户可以通过HuggingFace的datasets库加载和使用FLEURS数据集。支持多种任务,如语音识别、语言识别和检索。数据集可以使用streaming模式进行实时加载,也可以下载到本地。此外,提供了与PyTorch的集成,方便用户直接创建数据加载器。
背景与挑战
背景概述
FLEURS数据集,全称为Few-shot Learning Evaluation of Universal Representations of Speech,是一个专为评估跨语言语音表示的基准而设计的多语言语音数据集。该数据集由Google团队创建于2022年,包含了102种语言的语音数据,跨越了10多个语系,涵盖了西方、东方、中亚、北非、撒哈拉以南非洲、南亚、东南亚以及CJK(中文、日语、韩语)语言区域。FLEURS的构建旨在推动语音识别、翻译、分类和检索等任务在多语言环境下的研究,为不同语言提供平等的科技接入机会。
当前挑战
FLEURS数据集在构建过程中面临的主要挑战包括:1)多语言数据的收集与标注,需要专家、众包以及机器生成注释的结合,以确保数据的多样性和准确性;2)数据集的规模与多样性带来的处理和存储挑战;3)跨语言语音识别中的语言识别和固定大小语音表示的检索问题;4)数据集在语音类型上的局限性,主要集中于读语音,而实际应用中可能存在的噪声环境对模型性能的影响。
常用场景
经典使用场景
FLEURS数据集的经典使用场景在于评估跨语言的语音表示在各种语言、任务、领域和数据体制下的性能。该数据集覆盖了102种语言,被广泛应用于语音识别、翻译、分类和检索等任务,例如,通过多语言微调来训练自动语音识别模型,或用于语言识别模型以识别不同语言的语音片段。
实际应用
在实际应用中,FLEURS数据集可用于提升语音识别系统的多语言支持能力,使得技术能够覆盖更多语言,促进语音技术在全球化背景下的普及,并为不同语言的用户提供平等的科技接入机会。
衍生相关工作
基于FLEURS数据集,研究者们已经开展了一系列相关工作,包括构建多语言语音识别模型、语言识别系统以及探索固定大小的语音表示在检索任务中的应用,推动了语音处理领域的研究进展和技术创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录

Refinitiv ESG Scores

Refinitiv ESG Scores数据集包含了全球上市公司的环境、社会和治理(ESG)评分。这些评分基于公司的ESG表现,旨在帮助投资者和分析师评估公司的可持续性和社会责任。数据集包括公司的ESG总评分以及各个子类别的评分,如环境管理、社会贡献和公司治理等。

www.refinitiv.com 收录