2M-Belebele
收藏Hugging Face2024-12-17 更新2024-12-18 收录
下载链接:
https://huggingface.co/datasets/facebook/2M-Belebele
下载链接
链接失效反馈官方服务:
资源简介:
2M-Belebele是一个高度多语言的语音和手语理解数据集,涵盖74种口语和1种手语(美国手语)。数据集的语音部分通过对Belebele、Flores200和Fleurs数据集的对齐以及为缺失的句子录制新音频构建,手语部分则包括全新的控制录音,每个Flores句子以及问题和答案都以视频格式提供。该数据集主要用于语言识别和自动语音识别的基准测试,并扩展了Fleurs数据集。
提供机构:
AI at Meta
创建时间:
2024-12-16
原始信息汇总
2M-Belebele 数据集概述
数据集简介
2M-Belebele 是一个高度多语言的语音和美式手语理解数据集,涵盖了74种口语语言和1种手语(美式手语,ASL)。该数据集是现有 Belebele 纯文本数据集的扩展,结合了 Belebele、Flores200 和 Fleurs 数据集,并增加了新的音频录制。
数据集特点
- 多语言覆盖:涵盖74种口语语言和1种手语(ASL)。
- 数据来源:基于 Belebele、Flores200 和 Fleurs 数据集的整合,并增加了新的音频录制。
- 扩展 Fleurs 数据集:通过提供更多 Flores200 句子的录音,扩展了 Fleurs 数据集,扩展幅度为+20%。
- ASL 数据集:包含全新的美式手语录制,每个 Flores 句子以及问题和答案均以视频格式提供。
数据集结构
配置文件
数据集包含多个语言配置文件,每个配置文件对应一种语言,并包含测试集的 .parquet 文件路径。例如:
guj_Gujr:古吉拉特语lvs_Latn:标准拉脱维亚语jpn_Jpan:日语pol_Latn:波兰语arz_Arab:埃及阿拉伯语mkd_Cyrl:马其顿语fin_Latn:芬兰语vie_Latn:越南语cat_Latn:加泰罗尼亚语dan_Latn:丹麦语asm_Beng:阿萨姆语por_Latn:葡萄牙语nob_Latn:挪威博克马尔语tam_Taml:泰米尔语mya_Mymr:缅甸语bul_Cyrl:保加利亚语yor_Latn:约鲁巴语afr_Latn:南非荷兰语deu_Latn:德语amh_Ethi:阿姆哈拉语tgl_Latn:他加禄语heb_Hebr:希伯来语ind_Latn:印度尼西亚语sna_Latn:修纳语ell_Grek:希腊语hye_Armn:亚美尼亚语snd_Arab:信德语swe_Latn:瑞典语pan_Guru:旁遮普语nld_Latn:荷兰语khm_Khmr:高棉语ben_Beng:孟加拉语swh_Latn:斯瓦希里语ory_Orya:奥里亚语hin_Deva:印地语srp_Cyrl:塞尔维亚语rus_Cyrl:俄语spa_Latn:西班牙语lug_Latn:卢干达语urd_Arab:乌尔都语hun_Latn:匈牙利语tel_Telu:泰卢固语slv_Latn:斯洛文尼亚语pes_Arab:波斯语wol_Latn:沃洛夫语xho_Latn:科萨语est_Latn:爱沙尼亚语tur_Latn:土耳其语tgk_Cyrl:塔吉克语mal_Mlym:马拉雅拉姆语azj_Latn:北阿塞拜疆语kea_Latn:卡布韦鲁语jav_Latn:爪哇语ces_Latn:捷克语khk_Cyrl:哈尔蒙古语slk_Latn:斯洛伐克语kor_Hang:韩语npi_Deva:尼泊尔语ibo_Latn:伊博语isl_Latn:冰岛语zho_Hans:简体中文pbt_Arab:南普什图语ceb_Latn:宿务语ron_Latn:罗马尼亚语luo_Latn:卢奥语kaz_Cyrl:哈萨克语eng_Latn:英语hau_Latn:豪萨语ita_Latn:意大利语tha_Thai:泰语kat_Geor:格鲁吉亚语lit_Latn:立陶宛语fra_Latn:法语
数据集列
link:原始文档链接。question_number:问题编号。flores_passage:来自 Belebele 文本的段落。question:文本问题。mc_answer1:第一个答案,文本。mc_answer2:第二个答案,文本。mc_answer3:第三个答案,文本。mc_answer4:第四个答案,文本。flores:关于 Flores 条目的详细信息。correct_answer_num:正确答案的编号。dialect:加载的语言/方言。audio_segments:与段落中的每个 Flores 句子对应的音频段列表。unmatched_audio:是否有未匹配到音频的句子。fleurs_audio_match:来自 Fleurs 的音频段数量。meta_audio_match:来自元录制的音频段数量。has_matched_audio:是否至少有一个句子匹配到音频。question_audio:问题的音频录制。answer_1_audio:第一个答案的音频录制。answer_2_audio:第二个答案的音频录制。answer_3_audio:第三个答案的音频录制。answer_4_audio:第四个答案的音频录制。flores_sentences:Flores 句子列表。
数据集语言
数据集涵盖了多种语言,包括但不限于:
- 英语(
eng_Latn) - 法语(
fra_Latn) - 德语(
deu_Latn) - 西班牙语(
spa_Latn) - 中文(
zho_Hans) - 日语(
jpn_Jpan) - 韩语(
kor_Hang) - 俄语(
rus_Cyrl) - 阿拉伯语(
arb_Arab) - 葡萄牙语(
por_Latn) - 意大利语(
ita_Latn) - 荷兰语(
nld_Latn) - 土耳其语(
tur_Latn) - 波兰语(
pol_Latn) - 瑞典语(
swe_Latn) - 越南语(
vie_Latn) - 泰语(
tha_Thai) - 希腊语(
ell_Grek) - 捷克语(
ces_Latn) - 匈牙利语(
hun_Latn) - 丹麦语(
dan_Latn) - 芬兰语(
fin_Latn) - 挪威语(
nob_Latn) - 冰岛语(
isl_Latn) - 爱沙尼亚语(
est_Latn) - 立陶宛语(
lit_Latn) - 拉脱维亚语(
lvs_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 保加利亚语(
bul_Cyrl) - 马其顿语(
mkd_Cyrl) - 阿尔巴尼亚语(
als_Latn) - 亚美尼亚语(
hye_Armn) - 格鲁吉亚语(
kat_Geor) - 阿塞拜疆语(
azj_Latn) - 哈萨克语(
kaz_Cyrl) - 乌兹别克语(
uzn_Latn) - 塔吉克语(
tgk_Cyrl) - 吉尔吉斯语(
kir_Cyrl) - 蒙古语(
khk_Cyrl) - 藏语(
bod_Tibt) - 缅甸语(
mya_Mymr) - 高棉语(
khm_Khmr) - 老挝语(
lao_Laoo) - 泰语(
tha_Thai) - 越南语(
vie_Latn) - 印尼语(
ind_Latn) - 马来语(
zsm_Latn) - 菲律宾语(
fil_Latn) - 宿务语(
ceb_Latn) - 他加禄语(
tgl_Latn) - 马来语(
zsm_Latn) - 爪哇语(
jav_Latn) - 巽他语(
sun_Latn) - 马都拉语(
mad_Latn) - 巴厘语(
ban_Latn) - 萨萨克语(
sas_Latn) - 米南加保语(
min_Latn) - 布吉语(
bug_Latn) - 班查尔语(
bjn_Latn) - 马达加斯加语(
plt_Latn) - 毛利语(
mri_Latn) - 萨摩亚语(
smo_Latn) - 汤加语(
ton_Latn) - 斐济语(
fij_Latn) - 塔希提语(
tah_Latn) - 夏威夷语(
haw_Latn) - 阿姆哈拉语(
amh_Ethi) - 提格利尼亚语(
tir_Ethi) - 索马里语(
som_Latn) - 斯瓦希里语(
swh_Latn) - 豪萨语(
hau_Latn) - 约鲁巴语(
yor_Latn) - 伊博语(
ibo_Latn) - 埃维语(
ewe_Latn) - 阿肯语(
aka_Latn) - 克里奥尔语(
kea_Latn) - 海地克里奥尔语(
hat_Latn) - 瓜拉尼语(
grn_Latn) - 奇楚瓦语(
que_Latn) - 纳瓦特尔语(
nav_Latn) - 克丘亚语(
que_Latn) - 艾马拉语(
aym_Latn) - 拉丁美洲西班牙语(
spa_Latn) - 巴西葡萄牙语(
por_Latn) - 加泰罗尼亚语(
cat_Latn) - 巴斯克语(
eus_Latn) - 加利西亚语(
glg_Latn) - 威尔士语(
cym_Latn) - 爱尔兰语(
gle_Latn) - 苏格兰盖尔语(
gla_Latn) - 马耳他语(
mlt_Latn) - 科西嘉语(
cos_Latn) - 撒丁语(
srd_Latn) - 西西里语(
scn_Latn) - 布列塔尼语(
bre_Latn) - 弗留利语(
fur_Latn) - 罗曼什语(
roh_Latn) - 卢森堡语(
ltz_Latn) - 摩尔多瓦语(
mol_Latn) - 阿尔巴尼亚语(
als_Latn) - 马其顿语(
mkd_Cyrl) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 波斯尼亚语(
bos_Latn) - 黑山语(
cnr_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 捷克语(
ces_Latn) - 波兰语(
pol_Latn) - 白俄罗斯语(
bel_Cyrl) - 乌克兰语(
ukr_Cyrl) - 俄语(
rus_Cyrl) - 保加利亚语(
bul_Cyrl) - 马其顿语(
mkd_Cyrl) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 波斯尼亚语(
bos_Latn) - 黑山语(
cnr_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 捷克语(
ces_Latn) - 波兰语(
pol_Latn) - 白俄罗斯语(
bel_Cyrl) - 乌克兰语(
ukr_Cyrl) - 俄语(
rus_Cyrl) - 保加利亚语(
bul_Cyrl) - 马其顿语(
mkd_Cyrl) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 波斯尼亚语(
bos_Latn) - 黑山语(
cnr_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 捷克语(
ces_Latn) - 波兰语(
pol_Latn) - 白俄罗斯语(
bel_Cyrl) - 乌克兰语(
ukr_Cyrl) - 俄语(
rus_Cyrl) - 保加利亚语(
bul_Cyrl) - 马其顿语(
mkd_Cyrl) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 波斯尼亚语(
bos_Latn) - 黑山语(
cnr_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 捷克语(
ces_Latn) - 波兰语(
pol_Latn) - 白俄罗斯语(
bel_Cyrl) - 乌克兰语(
ukr_Cyrl) - 俄语(
rus_Cyrl) - 保加利亚语(
bul_Cyrl) - 马其顿语(
mkd_Cyrl) - 塞尔维亚语(
srp_Cyrl) - 克罗地亚语(
hrv_Latn) - 波斯尼亚语(
bos_Latn) - 黑山语(
cnr_Latn) - 斯洛文尼亚语(
slv_Latn) - 斯洛伐克语(
slk_Latn) - 捷克语(
ces_Latn) - 波兰语(
pol_Latn) - 白俄罗斯语(
bel_Cyrl) - 乌克兰语(
ukr_Cyrl) - 俄语(
rus_Cyrl) - 保加利亚语(
bul_Cyrl)
搜集汇总
数据集介绍

构建方式
2M-Belebele数据集的构建基于Belebele、Flores200和Fleurs数据集的对齐,并通过补充新的音频录制来填补Fleurs数据集中缺失的句子。此外,针对Belebele的问题和答案部分,也进行了全新的音频录制。这一过程不仅扩展了Fleurs数据集,还创建了一个名为2M-Flores的新数据集,该数据集在Fleurs的基础上增加了20%的内容。ASL部分则通过控制录制的方式,为每个Flores句子以及问题和答案提供了视频格式。
特点
2M-Belebele数据集的显著特点在于其高度多语言性,涵盖了74种口语和一种手语(ASL)。该数据集不仅提供了丰富的音频资源,还通过视频格式支持手语理解,使其成为多模态语言理解的宝贵资源。此外,数据集的构建方式确保了与现有数据集的兼容性,便于研究人员进行跨语言和跨模态的研究。
使用方法
使用2M-Belebele数据集时,用户可以通过HuggingFace的datasets库加载所需的语言配置。数据集提供了详细的音频和文本对齐信息,用户可以轻松访问每个句子的音频片段、问题和答案的音频记录。通过提供的代码示例,用户可以快速上手,利用该数据集进行自动语音识别、语言理解和多模态学习等任务的研究。
背景与挑战
背景概述
2M-Belebele数据集是由Marta R. Costa-jussà等人于2024年推出的一个高度多语言语音和美式手语理解数据集。该数据集是现有Belebele纯文本数据集的扩展,涵盖了74种口语和1种手语(美式手语)。其核心研究问题在于通过多语言语音和手语数据的整合,推动自动语音识别和语言理解技术的发展。2M-Belebele不仅通过整合Belebele、Flores200和Fleurs数据集构建了语音数据,还为缺失的句子录制了新的音频,进一步扩展了Fleurs数据集,形成了2M-Flores。该数据集的推出对多语言语音识别和手语理解领域具有重要影响,为跨语言和跨模态的研究提供了丰富的资源。
当前挑战
2M-Belebele数据集面临的主要挑战包括:1) 多语言语音数据的整合与对齐,涉及不同语言的语音特征和语法结构的差异,增加了数据处理的复杂性;2) 为缺失的句子录制新音频,确保音频质量与多样性,同时保持与文本数据的一致性;3) 构建美式手语数据集,涉及视频录制和手语表达的复杂性,需确保手语者的多样性和数据的准确性。此外,数据集的多语言特性也带来了模型训练和评估的挑战,如何在不同语言和模态之间实现有效的迁移学习和泛化能力,是该数据集面临的重要问题。
常用场景
经典使用场景
2M-Belebele数据集的经典使用场景主要集中在多语言语音识别和自动语音识别任务中。该数据集通过整合Belebele、Flores200和Fleurs数据集,提供了丰富的多语言语音数据,涵盖了74种口语和1种手语(ASL)。研究者可以利用这些数据进行跨语言的语音识别模型训练,尤其是在处理低资源语言时,该数据集提供了宝贵的资源。此外,数据集中的问题回答部分也为多语言问答系统的开发提供了支持。
实际应用
2M-Belebele数据集在实际应用中具有广泛的潜力。首先,它可以用于开发多语言语音助手,支持多种语言的语音输入和输出,从而为全球用户提供更加便捷的交互体验。其次,该数据集可用于构建多语言教育平台,帮助学习者在不同语言环境中进行语音学习和练习。此外,数据集中的ASL部分还可以应用于手语翻译系统,为聋哑人士提供更加便捷的沟通工具。
衍生相关工作
2M-Belebele数据集的发布催生了一系列相关的经典工作。首先,基于该数据集的多语言语音识别模型在多个低资源语言上取得了显著的性能提升,推动了低资源语言语音识别技术的发展。其次,研究者利用数据集中的ASL数据,开发了首个多语言手语识别系统,填补了手语识别领域的研究空白。此外,数据集的多语言问答部分也激发了跨语言问答系统的研究,推动了多语言自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成



