2M-Belebele

Name: 2M-Belebele
Creator: AI at Meta
Published: 2024-12-17 21:39:10
License: 暂无描述

Hugging Face2024-12-17 更新2024-12-18 收录

下载链接：

https://huggingface.co/datasets/facebook/2M-Belebele

下载链接

链接失效反馈

官方服务：

资源简介：

2M-Belebele是一个高度多语言的语音和手语理解数据集，涵盖74种口语和1种手语（美国手语）。数据集的语音部分通过对Belebele、Flores200和Fleurs数据集的对齐以及为缺失的句子录制新音频构建，手语部分则包括全新的控制录音，每个Flores句子以及问题和答案都以视频格式提供。该数据集主要用于语言识别和自动语音识别的基准测试，并扩展了Fleurs数据集。

提供机构：

AI at Meta

创建时间：

2024-12-16

原始信息汇总

2M-Belebele 数据集概述

数据集简介

2M-Belebele 是一个高度多语言的语音和美式手语理解数据集，涵盖了74种口语语言和1种手语（美式手语，ASL）。该数据集是现有 Belebele 纯文本数据集的扩展，结合了 Belebele、Flores200 和 Fleurs 数据集，并增加了新的音频录制。

数据集特点

多语言覆盖：涵盖74种口语语言和1种手语（ASL）。
数据来源：基于 Belebele、Flores200 和 Fleurs 数据集的整合，并增加了新的音频录制。
扩展 Fleurs 数据集：通过提供更多 Flores200 句子的录音，扩展了 Fleurs 数据集，扩展幅度为+20%。
ASL 数据集：包含全新的美式手语录制，每个 Flores 句子以及问题和答案均以视频格式提供。

数据集结构

配置文件

数据集包含多个语言配置文件，每个配置文件对应一种语言，并包含测试集的 .parquet 文件路径。例如：

guj_Gujr：古吉拉特语
lvs_Latn：标准拉脱维亚语
jpn_Jpan：日语
pol_Latn：波兰语
arz_Arab：埃及阿拉伯语
mkd_Cyrl：马其顿语
fin_Latn：芬兰语
vie_Latn：越南语
cat_Latn：加泰罗尼亚语
dan_Latn：丹麦语
asm_Beng：阿萨姆语
por_Latn：葡萄牙语
nob_Latn：挪威博克马尔语
tam_Taml：泰米尔语
mya_Mymr：缅甸语
bul_Cyrl：保加利亚语
yor_Latn：约鲁巴语
afr_Latn：南非荷兰语
deu_Latn：德语
amh_Ethi：阿姆哈拉语
tgl_Latn：他加禄语
heb_Hebr：希伯来语
ind_Latn：印度尼西亚语
sna_Latn：修纳语
ell_Grek：希腊语
hye_Armn：亚美尼亚语
snd_Arab：信德语
swe_Latn：瑞典语
pan_Guru：旁遮普语
nld_Latn：荷兰语
khm_Khmr：高棉语
ben_Beng：孟加拉语
swh_Latn：斯瓦希里语
ory_Orya：奥里亚语
hin_Deva：印地语
srp_Cyrl：塞尔维亚语
rus_Cyrl：俄语
spa_Latn：西班牙语
lug_Latn：卢干达语
urd_Arab：乌尔都语
hun_Latn：匈牙利语
tel_Telu：泰卢固语
slv_Latn：斯洛文尼亚语
pes_Arab：波斯语
wol_Latn：沃洛夫语
xho_Latn：科萨语
est_Latn：爱沙尼亚语
tur_Latn：土耳其语
tgk_Cyrl：塔吉克语
mal_Mlym：马拉雅拉姆语
azj_Latn：北阿塞拜疆语
kea_Latn：卡布韦鲁语
jav_Latn：爪哇语
ces_Latn：捷克语
khk_Cyrl：哈尔蒙古语
slk_Latn：斯洛伐克语
kor_Hang：韩语
npi_Deva：尼泊尔语
ibo_Latn：伊博语
isl_Latn：冰岛语
zho_Hans：简体中文
pbt_Arab：南普什图语
ceb_Latn：宿务语
ron_Latn：罗马尼亚语
luo_Latn：卢奥语
kaz_Cyrl：哈萨克语
eng_Latn：英语
hau_Latn：豪萨语
ita_Latn：意大利语
tha_Thai：泰语
kat_Geor：格鲁吉亚语
lit_Latn：立陶宛语
fra_Latn：法语

数据集列

link：原始文档链接。
question_number：问题编号。
flores_passage：来自 Belebele 文本的段落。
question：文本问题。
mc_answer1：第一个答案，文本。
mc_answer2：第二个答案，文本。
mc_answer3：第三个答案，文本。
mc_answer4：第四个答案，文本。
flores：关于 Flores 条目的详细信息。
correct_answer_num：正确答案的编号。
dialect：加载的语言/方言。
audio_segments：与段落中的每个 Flores 句子对应的音频段列表。
unmatched_audio：是否有未匹配到音频的句子。
fleurs_audio_match：来自 Fleurs 的音频段数量。
meta_audio_match：来自元录制的音频段数量。
has_matched_audio：是否至少有一个句子匹配到音频。
question_audio：问题的音频录制。
answer_1_audio：第一个答案的音频录制。
answer_2_audio：第二个答案的音频录制。
answer_3_audio：第三个答案的音频录制。
answer_4_audio：第四个答案的音频录制。
flores_sentences：Flores 句子列表。

数据集语言

数据集涵盖了多种语言，包括但不限于：

英语（eng_Latn）
法语（fra_Latn）
德语（deu_Latn）
西班牙语（spa_Latn）
中文（zho_Hans）
日语（jpn_Jpan）
韩语（kor_Hang）
俄语（rus_Cyrl）
阿拉伯语（arb_Arab）
葡萄牙语（por_Latn）
意大利语（ita_Latn）
荷兰语（nld_Latn）
土耳其语（tur_Latn）
波兰语（pol_Latn）
瑞典语（swe_Latn）
越南语（vie_Latn）
泰语（tha_Thai）
希腊语（ell_Grek）
捷克语（ces_Latn）
匈牙利语（hun_Latn）
丹麦语（dan_Latn）
芬兰语（fin_Latn）
挪威语（nob_Latn）
冰岛语（isl_Latn）
爱沙尼亚语（est_Latn）
立陶宛语（lit_Latn）
拉脱维亚语（lvs_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
保加利亚语（bul_Cyrl）
马其顿语（mkd_Cyrl）
阿尔巴尼亚语（als_Latn）
亚美尼亚语（hye_Armn）
格鲁吉亚语（kat_Geor）
阿塞拜疆语（azj_Latn）
哈萨克语（kaz_Cyrl）
乌兹别克语（uzn_Latn）
塔吉克语（tgk_Cyrl）
吉尔吉斯语（kir_Cyrl）
蒙古语（khk_Cyrl）
藏语（bod_Tibt）
缅甸语（mya_Mymr）
高棉语（khm_Khmr）
老挝语（lao_Laoo）
泰语（tha_Thai）
越南语（vie_Latn）
印尼语（ind_Latn）
马来语（zsm_Latn）
菲律宾语（fil_Latn）
宿务语（ceb_Latn）
他加禄语（tgl_Latn）
马来语（zsm_Latn）
爪哇语（jav_Latn）
巽他语（sun_Latn）
马都拉语（mad_Latn）
巴厘语（ban_Latn）
萨萨克语（sas_Latn）
米南加保语（min_Latn）
布吉语（bug_Latn）
班查尔语（bjn_Latn）
马达加斯加语（plt_Latn）
毛利语（mri_Latn）
萨摩亚语（smo_Latn）
汤加语（ton_Latn）
斐济语（fij_Latn）
塔希提语（tah_Latn）
夏威夷语（haw_Latn）
阿姆哈拉语（amh_Ethi）
提格利尼亚语（tir_Ethi）
索马里语（som_Latn）
斯瓦希里语（swh_Latn）
豪萨语（hau_Latn）
约鲁巴语（yor_Latn）
伊博语（ibo_Latn）
埃维语（ewe_Latn）
阿肯语（aka_Latn）
克里奥尔语（kea_Latn）
海地克里奥尔语（hat_Latn）
瓜拉尼语（grn_Latn）
奇楚瓦语（que_Latn）
纳瓦特尔语（nav_Latn）
克丘亚语（que_Latn）
艾马拉语（aym_Latn）
拉丁美洲西班牙语（spa_Latn）
巴西葡萄牙语（por_Latn）
加泰罗尼亚语（cat_Latn）
巴斯克语（eus_Latn）
加利西亚语（glg_Latn）
威尔士语（cym_Latn）
爱尔兰语（gle_Latn）
苏格兰盖尔语（gla_Latn）
马耳他语（mlt_Latn）
科西嘉语（cos_Latn）
撒丁语（srd_Latn）
西西里语（scn_Latn）
布列塔尼语（bre_Latn）
弗留利语（fur_Latn）
罗曼什语（roh_Latn）
卢森堡语（ltz_Latn）
摩尔多瓦语（mol_Latn）
阿尔巴尼亚语（als_Latn）
马其顿语（mkd_Cyrl）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
波斯尼亚语（bos_Latn）
黑山语（cnr_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
捷克语（ces_Latn）
波兰语（pol_Latn）
白俄罗斯语（bel_Cyrl）
乌克兰语（ukr_Cyrl）
俄语（rus_Cyrl）
保加利亚语（bul_Cyrl）
马其顿语（mkd_Cyrl）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
波斯尼亚语（bos_Latn）
黑山语（cnr_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
捷克语（ces_Latn）
波兰语（pol_Latn）
白俄罗斯语（bel_Cyrl）
乌克兰语（ukr_Cyrl）
俄语（rus_Cyrl）
保加利亚语（bul_Cyrl）
马其顿语（mkd_Cyrl）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
波斯尼亚语（bos_Latn）
黑山语（cnr_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
捷克语（ces_Latn）
波兰语（pol_Latn）
白俄罗斯语（bel_Cyrl）
乌克兰语（ukr_Cyrl）
俄语（rus_Cyrl）
保加利亚语（bul_Cyrl）
马其顿语（mkd_Cyrl）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
波斯尼亚语（bos_Latn）
黑山语（cnr_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
捷克语（ces_Latn）
波兰语（pol_Latn）
白俄罗斯语（bel_Cyrl）
乌克兰语（ukr_Cyrl）
俄语（rus_Cyrl）
保加利亚语（bul_Cyrl）
马其顿语（mkd_Cyrl）
塞尔维亚语（srp_Cyrl）
克罗地亚语（hrv_Latn）
波斯尼亚语（bos_Latn）
黑山语（cnr_Latn）
斯洛文尼亚语（slv_Latn）
斯洛伐克语（slk_Latn）
捷克语（ces_Latn）
波兰语（pol_Latn）
白俄罗斯语（bel_Cyrl）
乌克兰语（ukr_Cyrl）
俄语（rus_Cyrl）
保加利亚语（bul_Cyrl）

搜集汇总

数据集介绍

构建方式

2M-Belebele数据集的构建基于Belebele、Flores200和Fleurs数据集的对齐，并通过补充新的音频录制来填补Fleurs数据集中缺失的句子。此外，针对Belebele的问题和答案部分，也进行了全新的音频录制。这一过程不仅扩展了Fleurs数据集，还创建了一个名为2M-Flores的新数据集，该数据集在Fleurs的基础上增加了20%的内容。ASL部分则通过控制录制的方式，为每个Flores句子以及问题和答案提供了视频格式。

特点

2M-Belebele数据集的显著特点在于其高度多语言性，涵盖了74种口语和一种手语（ASL）。该数据集不仅提供了丰富的音频资源，还通过视频格式支持手语理解，使其成为多模态语言理解的宝贵资源。此外，数据集的构建方式确保了与现有数据集的兼容性，便于研究人员进行跨语言和跨模态的研究。

使用方法

使用2M-Belebele数据集时，用户可以通过HuggingFace的datasets库加载所需的语言配置。数据集提供了详细的音频和文本对齐信息，用户可以轻松访问每个句子的音频片段、问题和答案的音频记录。通过提供的代码示例，用户可以快速上手，利用该数据集进行自动语音识别、语言理解和多模态学习等任务的研究。

背景与挑战

背景概述

2M-Belebele数据集是由Marta R. Costa-jussà等人于2024年推出的一个高度多语言语音和美式手语理解数据集。该数据集是现有Belebele纯文本数据集的扩展，涵盖了74种口语和1种手语（美式手语）。其核心研究问题在于通过多语言语音和手语数据的整合，推动自动语音识别和语言理解技术的发展。2M-Belebele不仅通过整合Belebele、Flores200和Fleurs数据集构建了语音数据，还为缺失的句子录制了新的音频，进一步扩展了Fleurs数据集，形成了2M-Flores。该数据集的推出对多语言语音识别和手语理解领域具有重要影响，为跨语言和跨模态的研究提供了丰富的资源。

当前挑战

2M-Belebele数据集面临的主要挑战包括：1) 多语言语音数据的整合与对齐，涉及不同语言的语音特征和语法结构的差异，增加了数据处理的复杂性；2) 为缺失的句子录制新音频，确保音频质量与多样性，同时保持与文本数据的一致性；3) 构建美式手语数据集，涉及视频录制和手语表达的复杂性，需确保手语者的多样性和数据的准确性。此外，数据集的多语言特性也带来了模型训练和评估的挑战，如何在不同语言和模态之间实现有效的迁移学习和泛化能力，是该数据集面临的重要问题。

常用场景

经典使用场景

2M-Belebele数据集的经典使用场景主要集中在多语言语音识别和自动语音识别任务中。该数据集通过整合Belebele、Flores200和Fleurs数据集，提供了丰富的多语言语音数据，涵盖了74种口语和1种手语（ASL）。研究者可以利用这些数据进行跨语言的语音识别模型训练，尤其是在处理低资源语言时，该数据集提供了宝贵的资源。此外，数据集中的问题回答部分也为多语言问答系统的开发提供了支持。

实际应用

2M-Belebele数据集在实际应用中具有广泛的潜力。首先，它可以用于开发多语言语音助手，支持多种语言的语音输入和输出，从而为全球用户提供更加便捷的交互体验。其次，该数据集可用于构建多语言教育平台，帮助学习者在不同语言环境中进行语音学习和练习。此外，数据集中的ASL部分还可以应用于手语翻译系统，为聋哑人士提供更加便捷的沟通工具。

衍生相关工作

2M-Belebele数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的多语言语音识别模型在多个低资源语言上取得了显著的性能提升，推动了低资源语言语音识别技术的发展。其次，研究者利用数据集中的ASL数据，开发了首个多语言手语识别系统，填补了手语识别领域的研究空白。此外，数据集的多语言问答部分也激发了跨语言问答系统的研究，推动了多语言自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集