Belebele_N100

Hugging Face2024-12-20 更新2024-12-21 收录

下载链接：

https://huggingface.co/datasets/Kartik221/Belebele_N100

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言和脚本的配置，每个配置包含多个特征，如键、链接、问题编号、Flores段落、问题、四个多项选择答案和正确答案编号。数据集分为测试集和训练集，每个集包含一定数量的样本和字节。

创建时间：

2024-12-20

原始信息汇总

Belebele_N100 数据集概述

数据集配置

acm_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 125985字节
- train: 5个样本, 6435字节
下载大小: 95190字节
数据集大小: 132420字节

afr_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 94131字节
- train: 5个样本, 4489字节
下载大小: 80270字节
数据集大小: 98620字节

als_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 102823字节
- train: 5个样本, 5099字节
下载大小: 85846字节
数据集大小: 107922字节

amh_Ethi

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 140577字节
- train: 5个样本, 6862字节
下载大小: 99659字节
数据集大小: 147439字节

apc_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 121912字节
- train: 5个样本, 6142字节
下载大小: 89670字节
数据集大小: 128054字节

arb_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 128398字节
- train: 5个样本, 6563字节
下载大小: 96007字节
数据集大小: 134961字节

arb_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 98190字节
下载大小: 73523字节
数据集大小: 98190字节

ars_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 128223字节
下载大小: 79164字节
数据集大小: 128223字节

ary_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 130282字节
下载大小: 79258字节
数据集大小: 130282字节

arz_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 127104字节
下载大小: 78142字节
数据集大小: 127104字节

asm_Beng

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 195826字节
下载大小: 99678字节
数据集大小: 195826字节

azj_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 106091字节
下载大小: 72480字节
数据集大小: 106091字节

bam_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 92933字节
下载大小: 64666字节
数据集大小: 92933字节

ben_Beng

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 202552字节
下载大小: 100044字节
数据集大小: 202552字节

ben_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 96297字节
下载大小: 69631字节
数据集大小: 96297字节

bod_Tibt

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 253921字节
下载大小: 102322字节
数据集大小: 253921字节

bul_Cyrl

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 154199字节
下载大小: 90327字节
数据集大小: 154199字节

cat_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 98974字节
下载大小: 72351字节
数据集大小: 98974字节

ceb_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 104209字节
下载大小: 69470字节
数据集大小: 104209字节

ces_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 96217字节
下载大小: 71804字节
数据集大小: 96217字节

ckb_Arab

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 146198字节
下载大小: 83324字节
数据集大小: 146198字节

dan_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 93144字节
下载大小: 66273字节
数据集大小: 93144字节

deu_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 102543字节
下载大小: 75061字节
数据集大小: 102543字节

ell_Grek

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 174037字节
下载大小: 100484字节
数据集大小: 174037字节

eng_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 90915字节
下载大小: 64995字节
数据集大小: 90915字节

est_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc_answer1: string
- mc_answer2: string
- mc_answer3: string
- mc_answer4: string
- correct_answer_num: string
分割:
- test: 100个样本, 89265字节
下载大小: 67974字节
数据集大小: 89265字节

eus_Latn

特征:
- key: string
- link: string
- question_number: int64
- flores_passage: string
- question: string
- mc

搜集汇总

数据集介绍

构建方式

Belebele_N100数据集的构建基于多语言阅读理解任务，涵盖了多种语言和书写系统。每个配置文件对应一种特定的语言和书写系统，如阿拉伯语（Arab）、拉丁字母（Latn）等。数据集中的每个样本包含一个唯一的键、链接、问题编号、Flores段落、问题、四个多项选择答案以及正确答案的编号。数据集的构建通过收集和整理多语言的阅读理解问题，确保每个语言版本的数据集具有一致的结构和格式，从而为多语言阅读理解模型的训练和评估提供了丰富的资源。

特点

Belebele_N100数据集的主要特点在于其多语言和多书写系统的覆盖范围，支持多种语言的阅读理解任务。每个语言版本的数据集都包含100个测试样本和5个训练样本，确保了数据集的多样性和实用性。此外，数据集的结构设计使得每个样本都包含完整的阅读理解问题和答案选项，便于模型进行多选题的训练和评估。这种设计不仅提高了数据集的实用性，还为跨语言阅读理解研究提供了宝贵的资源。

使用方法

Belebele_N100数据集适用于多语言阅读理解模型的训练和评估。用户可以通过加载特定的语言配置文件来访问相应语言的数据集，并使用其中的训练和测试数据进行模型训练和性能评估。数据集的结构清晰，包含问题、段落、答案选项和正确答案编号，便于模型进行多选题的预测和验证。此外，数据集的多样性使得它适用于跨语言阅读理解的研究，帮助模型在不同语言环境下进行泛化能力的测试和提升。

背景与挑战

背景概述

Belebele_N100数据集是由多个研究人员或机构共同创建的，旨在推动多语言阅读理解任务的研究。该数据集包含了多种语言的阅读理解问题，涵盖了从阿拉伯语到藏语等多种语言的变体。其核心研究问题在于评估和提升多语言模型的阅读理解能力，特别是在低资源语言上的表现。通过提供丰富的多语言数据，Belebele_N100为研究者提供了一个重要的基准，以测试和改进自然语言处理模型在跨语言环境下的性能。

当前挑战

Belebele_N100数据集在构建过程中面临了多重挑战。首先，多语言数据的收集和标注是一个复杂且耗时的过程，尤其是在低资源语言上，数据的获取和质量控制尤为困难。其次，不同语言之间的语法结构和文化背景差异使得模型的跨语言迁移变得更加复杂。此外，数据集的多样性和规模也带来了计算资源和模型训练效率的挑战。最后，如何确保模型在不同语言上的公平性和一致性评估也是一个重要的研究问题。

常用场景

经典使用场景

Belebele_N100数据集在多语言阅读理解任务中展现了其经典应用场景。该数据集通过提供多种语言的阅读材料和多选题，帮助研究者评估模型在不同语言环境下的理解能力。其多样的语言配置和丰富的文本内容，使得该数据集成为跨语言自然语言处理（NLP）研究中的重要工具。

实际应用

在实际应用中，Belebele_N100数据集可用于开发和优化多语言教育工具、语言学习应用以及跨语言信息检索系统。通过利用该数据集，开发者可以构建能够理解多种语言的智能系统，从而提升用户体验和应用的广泛适用性。此外，该数据集还可用于多语言内容审核和自动翻译系统，进一步推动全球化信息交流。

衍生相关工作

基于Belebele_N100数据集，研究者们开发了多种多语言模型和跨语言迁移学习方法。例如，一些研究工作利用该数据集进行多语言预训练模型的微调，以提升模型在特定语言任务上的表现。此外，该数据集还激发了关于多语言阅读理解任务的基准测试和评估方法的研究，推动了多语言NLP领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集