facebook/belebele

Name: facebook/belebele
Creator: facebook
Published: 2023-11-15 02:31:17
License: 暂无描述

Hugging Face2023-11-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/facebook/belebele

下载链接

链接失效反馈

官方服务：

资源简介：

Belebele是一个多选机器阅读理解（MRC）数据集，涵盖122种语言变体。该数据集旨在评估单语和多语模型在高、中、低资源语言中的表现。每个问题有四个多项选择答案，并与来自FLORES-200数据集的短文相关联。数据集的设计经过精心策划，以确保问题能够区分不同水平的语言理解能力，并通过广泛的质量检查进行验证。数据集完全并行，使得可以直接比较模型在所有语言中的表现。Belebele为评估和分析语言模型及NLP系统的多语言能力开辟了新的途径。

提供机构：

facebook

原始信息汇总

Belebele数据集概述

数据集基本信息

名称: Belebele
类型: 多选机器阅读理解（MRC）数据集
语言数量: 122种语言变体
任务: 阅读理解
数据格式: JSONL
许可证: CC-BY-SA-4.0

数据集构成

问题数量: 每个语言变体900个问题
总问题数: 109,800个问题
文章数量: 488篇
答案形式: 每个问题有4个多选答案，其中1个正确

语言和脚本统计

语言变体数量: 122种
语言数量: 115种（忽略脚本）
语言家族: 27个
脚本: 29种

数据集详细结构

平均文章长度: 79.1字（标准差26.2）
平均句子数/文章: 4.1句（标准差1.4）
平均问题长度: 12.9字（标准差4.0）
平均答案长度: 4.2字（标准差2.9）

评估设置

无微调: 零样本和少样本学习
有微调: 英语微调和跨语言评估，包括翻译训练和测试

训练集

来源: 由多个现有英语多选QA数据集组合而成
数量: 67.5k训练样本和3.7k开发样本
主要数据集: RACE, SciQ, MultiRC, MCTest, MCScript2.0, ReClor

语言列表

数据集涵盖多种语言，包括但不限于英语、阿拉伯语、汉语、法语、德语等，使用多种脚本。

搜集汇总

数据集介绍

构建方式

Belebele是一个大规模多语言机器阅读理解基准数据集，涵盖122种语言变体。其构建基于FLORES-200数据集中的短文本段落，通过精心设计的人工标注流程为每个段落生成单项选择题，每道题包含四个选项且仅有一个正确答案。标注过程经过严格质量控制，确保问题能够有效区分不同层次的语言理解能力。数据集完全平行，每个语言变体包含900道题目，总计109，800个样本，覆盖27个语系和29种书写系统。

特点

该数据集的核心特点在于其极致的多语言覆盖范围和并行结构，支持对高资源、中资源和低资源语言的全面评估。每个语言变体拥有相同数量的题目，使得跨语言模型性能的直接比较成为可能。题目设计难度适中，即使是英文部分也能挑战最先进的语言模型。数据集仅提供测试集，避免用于训练，确保了评估的公正性和可靠性。此外，其简洁的单项选择题格式适用于零样本、少样本和微调等多种评估范式。

使用方法

Belebele的使用方法灵活多样，支持多种评估设置。对于无需微调的模型，可采用零样本自然语言指令（英文或翻译版）或少样本上下文学习（英文或翻译示例）。对于需要微调的模型，推荐使用作者提供的英文训练集（基于RACE、SciQ等现有数据集构建）进行微调，然后评估模型在所有目标语言上的表现。评估指标为简单的准确率。用户可通过HuggingFace Datasets库加载特定语言变体的测试集，并根据论文或GitHub仓库中的示例模板进行推理。

背景与挑战

背景概述

Belebele是由Meta AI团队于2024年发布的一项大规模多语言机器阅读理解基准数据集，其核心研究问题在于评估语言模型在122种语言变体上的理解能力。该数据集由Lucas Bandarkar、Davis Liang等研究人员主导构建，依托FLORES-200语料库中的短文生成多项选择问题，旨在弥补高资源语言与低资源语言在自然语言理解评估中的鸿沟。通过精心设计的人工程序与严格的质量控制，Belebele确保了问题能够区分不同层次的通用语言理解水平，其英文子集本身已具备挑战顶尖语言模型的能力。该数据集的完全并行特性使得跨语言模型性能的直接比较成为可能，为多语言NLP系统的分析开辟了全新路径。

当前挑战

Belebele所解决的领域挑战在于多语言机器阅读理解的评估失衡，传统基准多集中于英语等高资源语言，难以反映模型在低资源语言上的真实表现。构建过程中面临的核心挑战包括：1）确保122种语言变体在问题难度与语义一致性上的平行性，需平衡不同语言的文化背景与表达差异；2）人工标注流程需设计能泛化至多种语言的理解层次问题，同时避免文化偏见导致的不公平评估；3）对低资源语言，需解决标注数据稀缺与翻译质量控制的难题，以维持数据集的高质量标准。这些挑战使得Belebele成为检验多语言模型鲁棒性与泛化能力的关键标杆。

常用场景

经典使用场景

Belebele数据集的核心应用场景在于大规模多语言机器阅读理解评估。该数据集覆盖122种语言变体，每项任务包含一段源自FLORES-200的短文与四个选项的选择题，旨在衡量模型在跨语言环境下的文本理解能力。研究者可借助其完全平行的结构，在零样本、少样本或微调等范式下，系统性地对比模型在不同资源层次语言上的表现。这一设计使其成为检验多语言预训练模型（如XLM-R、mT5）泛化能力的理想基准，尤其适用于评估模型在低资源语言上的鲁棒性与迁移学习效果。

实际应用

在实际应用中，Belebele为构建全球化的多语言自然语言处理系统提供了关键的验证工具。企业或机构可利用该数据集评估其产品（如智能客服、机器翻译系统、跨语言信息检索工具）在多种语言上的阅读理解准确率，从而识别并改进在特定语言群体中的服务短板。此外，其平行语料特性还可用于优化多语言问答系统的训练策略，例如通过翻译训练数据增强低资源语言的表现，或开发更高效的语言无关表示方法，最终助力实现更具包容性的AI服务。

衍生相关工作

Belebele的出现催生了一系列围绕多语言理解能力分析的研究工作。例如，研究者基于该数据集深入分析了大型语言模型在跨语言推理中的知识迁移模式，探讨了模型如何利用高资源语言知识辅助低资源语言理解。此外，相关工作利用Belebele的平行特性，提出了新的多语言模型评估指标，如语言间性能差异的量化方法。该数据集也被用于验证翻译数据增强策略的有效性，以及探索多语言模型在未见语言上的零样本泛化边界，为理解多语言模型的内在机制提供了宝贵资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集