SEACrowd/fleurs

Name: SEACrowd/fleurs
Creator: SEACrowd
Published: 2024-06-24 13:22:25
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/fleurs

下载链接

链接失效反馈

官方服务：

资源简介：

Fleurs数据集是XTREME-S基准测试的一部分，用于评估多种语言的通用跨语言语音表示。该数据集主要用于两个任务：自动语音识别和语音分类。Fleurs涵盖了东南亚地区的10种主要语言以及其他3种在该地区广泛使用的语言（普通话、葡萄牙语和泰米尔语）。

提供机构：

SEACrowd

原始信息汇总

Fleurs 数据集概述

数据集简介

Fleurs 数据集是 XTREME-S 基准测试的一部分，用于评估多种语言中的跨语言语音表示。该数据集主要用于自动语音识别和语音分类任务。Fleurs 涵盖了东南亚地区的10种本土语言以及另外3种主要在东南亚国家使用的语言（普通话、葡萄牙语和泰米尔语）。

支持的语言

mya (缅甸语)
ceb (宿务语)
fil (菲律宾语)
ind (印度尼西亚语)
jav (爪哇语)
khm (高棉语)
lao (老挝语)
zlm (马来语)
tha (泰语)
vie (越南语)

支持的任务

语音识别
语音语言识别

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

Creative Commons Attribution 4.0 (cc-by-4.0)

引用

如果使用 Fleurs 数据集，请引用以下文献：

@inproceedings{conneau22_interspeech, author={Alexis Conneau and Ankur Bapna and Yu Zhang and Min Ma and Patrick {von Platen} and Anton Lozhkov and Colin Cherry and Ye Jia and Clara Rivera and Mihir Kale and Daan {van Esch} and Vera Axelrod and Simran Khanuja and Jonathan Clark and Orhan Firat and Michael Auli and Sebastian Ruder and Jason Riesa and Melvin Johnson}, title={{XTREME-S: Evaluating Cross-lingual Speech Representations}}, year=2022, booktitle={Proc. Interspeech 2022}, pages={3248--3252}, doi={10.21437/Interspeech.2022-10007} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

Fleurs数据集作为XTREME-S基准测试的一部分，旨在评估多语言跨语言语音表示。该数据集涵盖了东南亚地区的10种本土语言以及在东南亚国家广泛使用的3种主要语言（普通话、葡萄牙语和泰米尔语）。其构建方式基于多语言语音数据的收集与标注，确保了数据在语音识别和语言识别任务中的多样性和代表性。

特点

Fleurs数据集的显著特点在于其多语言覆盖范围广泛，尤其聚焦于东南亚语言，同时包含全球主要语言，为跨语言语音研究提供了丰富的资源。此外，该数据集支持语音识别和语言识别两类任务，适用于多种语音处理应用场景，具有较高的实用性和研究价值。

使用方法

Fleurs数据集可通过`datasets`库或`seacrowd`库进行加载。使用`datasets`库时，用户需调用`load_dataset`函数并指定数据集名称。若使用`seacrowd`库，可通过默认配置或特定配置名称加载数据集，并可查询所有可用子集。详细的使用方法和库加载指南可参考相关文档。

背景与挑战

背景概述

Fleurs数据集是XTREME-S基准测试的一部分，旨在评估多语言语音表示的跨语言通用性。该数据集由Alexis Conneau等研究人员于2022年提出，主要用于自动语音识别和语音语言识别任务。Fleurs涵盖了东南亚地区的10种本土语言以及在东南亚国家广泛使用的3种主要语言（普通话、葡萄牙语和泰米尔语）。其创建旨在推动跨语言语音处理技术的发展，特别是在多语言语音识别和语言识别领域，为研究人员提供了一个重要的基准数据集。

当前挑战

Fleurs数据集在构建过程中面临多重挑战。首先，涵盖多种语言的语音数据收集和标注工作复杂且耗时，尤其是东南亚地区的语言多样性和方言差异增加了数据集的构建难度。其次，确保数据集在不同语言间的平衡性和代表性也是一个重要挑战，以避免模型在某些语言上表现优异而在其他语言上表现不佳。此外，跨语言语音表示的评估需要克服语言间的语音特征差异，确保模型能够有效泛化到不同语言环境。

常用场景

经典使用场景

Fleurs数据集在跨语言语音表示评估中扮演着关键角色，主要用于自动语音识别（ASR）和语音语言识别（SLI）任务。其涵盖的10种东南亚语言及3种主要语言，为研究者提供了丰富的多语言语音数据资源，特别适用于构建和验证跨语言语音模型的性能。

实际应用

在实际应用中，Fleurs数据集被广泛用于开发多语言语音识别系统，如语音助手、自动字幕生成和语言翻译服务。其多语言覆盖能力使得这些系统能够更好地服务于东南亚及其他地区的用户，提升了语音技术的全球适用性和用户体验。

衍生相关工作

基于Fleurs数据集，研究者们开展了多项相关工作，包括跨语言语音模型的优化、多语言语音识别系统的构建以及语音语言识别技术的改进。这些工作不仅推动了语音处理技术的发展，还为多语言语音数据的收集和处理提供了新的方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集