SIB-200

arXiv2024-03-07 更新2024-07-30 收录

下载链接：

https://github.com/dadelani/sib-200

下载链接

链接失效反馈

官方服务：

资源简介：

SIB-200是一个大型开源基准数据集，用于200多种语言和方言的主题分类，旨在解决自然语言理解评估数据集的缺乏问题。该数据集基于Flores-200机器翻译语料库，首次为许多覆盖的语言提供了公开可用的NLU评估数据集。

SIB-200 is a large-scale open-source benchmark dataset for topic classification across over 200 languages and dialects, designed to address the scarcity of natural language understanding (NLU) evaluation datasets. Built on the Flores-200 machine translation corpus, it is the first to provide publicly available NLU evaluation datasets for many of the covered languages.

创建时间：

2023-09-14

原始信息汇总

SIB-200 数据集概述

数据集描述

SIB-200 是一个用于主题分类的评估数据集，支持超过200种语言和方言。该数据集包含标注的英语数据集、扩展标注到其他语言的脚本以及运行基线文本分类模型的代码。

数据集内容

标注的英语数据集：位于 data/eng 目录下。
扩展标注脚本：get_flores_and_annotate.sh 脚本用于将标注扩展到其他语言。
基线模型代码：位于 code 目录下，包含运行基线文本分类模型的代码。

依赖项

Python库：
- transformers
- sklearn
- evaluate
- datasets
- pandas

数据集创建

运行脚本： bash sh get_flores_and_annotate.sh
或从 Hugging Face 下载：

Davlan/sib200

运行基线模型

使用 XLM-R 模型： bash cd code/ sh xlmr_all.sh

引用信息

@misc{adelani2023sib200, title={SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects}, author={David Ifeoluwa Adelani and Hannah Liu and Xiaoyu Shen and Nikita Vassilyev and Jesujoba O. Alabi and Yanke Mao and Haonan Gao and Annie En-Shiun Lee}, year={2023}, eprint={2309.07445}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言理解领域，多语言评估数据集的稀缺性长期制约着低资源语言模型的发展。SIB-200数据集的构建基于Flores-200多语言平行语料库，该语料库包含205种语言和方言的平行句子。研究团队首先对英语部分进行了人工标注，由四位英语母语标注者使用内部标注工具，对2009个句子进行了主题分类标注，标注体系涵盖15个类别。通过计算Fleiss Kappa得分（0.44）确保标注质量，采用多数投票机制确定最终标签，并由首席标注者裁决冲突标注。最终筛选出7个主要主题类别，形成包含1004个句子的数据集，按70%、10%、20%的比例划分为训练集、开发集和测试集。

特点

SIB-200数据集的核心特征体现在其前所未有的语言覆盖广度与结构设计。该数据集涵盖205种语言和方言，涉及21个语系，其中包含150种低资源语言，为许多语言首次提供了公开的自然语言理解评估数据。数据集采用多语言平行结构，所有语言共享相同的句子内容和标注体系，确保了跨语言评估的一致性。主题分类涵盖科学/技术、旅行、政治、体育、健康、娱乐和地理七个领域，平衡了领域多样性与分类可行性。数据集的平行特性使其能够系统评估语言模型在不同语系、地理区域和资源水平下的表现差异，为分析语言表示对齐与迁移学习机制提供了理想实验平台。

使用方法

SIB-200数据集支持多种实验设置，全面评估多语言模型的性能。在全监督设置下，研究者可在每种语言的训练集上微调模型，并在同语言测试集上评估，分析语言特定性能。跨语言迁移设置允许在英语、法语、阿拉伯语或中文等高资源语言上训练模型，然后零样本迁移到其他语言，评估表示对齐能力。提示大语言模型设置则使用统一英文模板测试GPT系列模型的零样本分类性能。数据集还支持区域特定预训练模型评估，如非洲语言专用模型AfroXLMR和印度语言模型IndicBERTv2的对比分析。通过系统分组分析（按语系、地理区域、Joshi资源分类等），研究者能够深入揭示不同语言群体在模型性能上的结构性差异。

背景与挑战

背景概述

SIB-200数据集由多伦多大学、伦敦大学学院等机构的研究团队于2023年创建，旨在解决自然语言理解领域中对低资源语言评估数据匮乏的难题。该数据集基于Flores-200机器翻译语料库构建，覆盖205种语言与方言，首次为众多语言提供了公开可用的主题分类评估基准。其核心研究问题聚焦于大规模多语言模型在多样化语言环境下的性能评估，尤其关注非洲、美洲、大洋洲及东南亚等地区代表性不足的语言。SIB-200的推出显著推动了多语言NLP研究的包容性发展，为衡量模型在真实世界语言分布中的泛化能力提供了关键工具。

当前挑战

SIB-200数据集面临的挑战主要体现在两方面：在领域问题层面，主题分类任务虽看似简单，但评估揭示出高资源与低资源语言性能间的显著差距，尤其对预训练未覆盖的语言、资源稀缺语系（如尼罗-撒哈拉语系、大西洋-刚果语系）及特定地域语言，模型准确率可能下降超过30%。在构建过程中，挑战包括依赖翻译语料导致的“翻译腔”效应，可能影响语言自然性；数据规模受限（仅1004条标注句），难以充分支撑复杂模型训练；以及标注一致性管理，需通过多数投票与专家仲裁解决跨标注者冲突，确保标签质量。

常用场景

经典使用场景

在自然语言理解领域，SIB-200数据集为大规模多语言主题分类任务提供了标准化的评估基准。该数据集基于Flores-200平行语料构建，涵盖205种语言和方言的句子级主题标注，覆盖科学/技术、旅行、政治、体育、健康、娱乐和地理等七个核心类别。其经典使用场景在于系统评估多语言预训练模型在不同语言上的泛化能力，特别是在全监督、跨语言迁移以及大语言模型提示等实验设置下，揭示模型在高资源与低资源语言之间的性能差异。

实际应用

在实际应用层面，SIB-200数据集为构建全球化多语言内容分类系统提供了关键训练与评估资源。新闻媒体平台可借助该数据集开发跨语言新闻主题自动标注工具，实现多语言内容的智能归档与推荐。教育科技领域能够利用其低资源语言评估能力，优化面向偏远地区语言的学习资源分类系统。此外，跨国企业可基于该数据集的评估结果，选择适配特定语言区域的主题分类模型，提升多语言客户服务与内容管理效率。

衍生相关工作

围绕SIB-200数据集衍生出多项重要研究工作，特别是在多语言模型适应性优化领域。基于该数据集评估发现的低资源语言性能缺陷，研究者开发了多语言自适应微调技术，如AfroXLMR系列模型通过合成数据增强显著提升了非洲语言的分类性能。该数据集还促进了区域特异性预训练模型的比较研究，如IndicBERTv2和MuRIL在印度语言上的优化验证。同时，其评估框架被扩展用于分析大语言模型在多语言场景下的零样本能力边界，为后续的跨语言提示优化研究提供了基准参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集