five

Belebele_N100

收藏
Hugging Face2024-12-20 更新2024-12-21 收录
下载链接:
https://huggingface.co/datasets/Kartik221/Belebele_N100
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言和脚本的配置,每个配置包含多个特征,如键、链接、问题编号、Flores段落、问题、四个多项选择答案和正确答案编号。数据集分为测试集和训练集,每个集包含一定数量的样本和字节。
创建时间:
2024-12-20
原始信息汇总

Belebele_N100 数据集概述

数据集配置

acm_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 125985字节
    • train: 5个样本, 6435字节
  • 下载大小: 95190字节
  • 数据集大小: 132420字节

afr_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 94131字节
    • train: 5个样本, 4489字节
  • 下载大小: 80270字节
  • 数据集大小: 98620字节

als_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 102823字节
    • train: 5个样本, 5099字节
  • 下载大小: 85846字节
  • 数据集大小: 107922字节

amh_Ethi

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 140577字节
    • train: 5个样本, 6862字节
  • 下载大小: 99659字节
  • 数据集大小: 147439字节

apc_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 121912字节
    • train: 5个样本, 6142字节
  • 下载大小: 89670字节
  • 数据集大小: 128054字节

arb_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 128398字节
    • train: 5个样本, 6563字节
  • 下载大小: 96007字节
  • 数据集大小: 134961字节

arb_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 98190字节
  • 下载大小: 73523字节
  • 数据集大小: 98190字节

ars_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 128223字节
  • 下载大小: 79164字节
  • 数据集大小: 128223字节

ary_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 130282字节
  • 下载大小: 79258字节
  • 数据集大小: 130282字节

arz_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 127104字节
  • 下载大小: 78142字节
  • 数据集大小: 127104字节

asm_Beng

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 195826字节
  • 下载大小: 99678字节
  • 数据集大小: 195826字节

azj_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 106091字节
  • 下载大小: 72480字节
  • 数据集大小: 106091字节

bam_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 92933字节
  • 下载大小: 64666字节
  • 数据集大小: 92933字节

ben_Beng

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 202552字节
  • 下载大小: 100044字节
  • 数据集大小: 202552字节

ben_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 96297字节
  • 下载大小: 69631字节
  • 数据集大小: 96297字节

bod_Tibt

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 253921字节
  • 下载大小: 102322字节
  • 数据集大小: 253921字节

bul_Cyrl

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 154199字节
  • 下载大小: 90327字节
  • 数据集大小: 154199字节

cat_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 98974字节
  • 下载大小: 72351字节
  • 数据集大小: 98974字节

ceb_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 104209字节
  • 下载大小: 69470字节
  • 数据集大小: 104209字节

ces_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 96217字节
  • 下载大小: 71804字节
  • 数据集大小: 96217字节

ckb_Arab

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 146198字节
  • 下载大小: 83324字节
  • 数据集大小: 146198字节

dan_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 93144字节
  • 下载大小: 66273字节
  • 数据集大小: 93144字节

deu_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 102543字节
  • 下载大小: 75061字节
  • 数据集大小: 102543字节

ell_Grek

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 174037字节
  • 下载大小: 100484字节
  • 数据集大小: 174037字节

eng_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 90915字节
  • 下载大小: 64995字节
  • 数据集大小: 90915字节

est_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc_answer1: string
    • mc_answer2: string
    • mc_answer3: string
    • mc_answer4: string
    • correct_answer_num: string
  • 分割:
    • test: 100个样本, 89265字节
  • 下载大小: 67974字节
  • 数据集大小: 89265字节

eus_Latn

  • 特征:
    • key: string
    • link: string
    • question_number: int64
    • flores_passage: string
    • question: string
    • mc
搜集汇总
数据集介绍
main_image_url
构建方式
Belebele_N100数据集的构建基于多语言阅读理解任务,涵盖了多种语言和书写系统。每个配置文件对应一种特定的语言和书写系统,如阿拉伯语(Arab)、拉丁字母(Latn)等。数据集中的每个样本包含一个唯一的键、链接、问题编号、Flores段落、问题、四个多项选择答案以及正确答案的编号。数据集的构建通过收集和整理多语言的阅读理解问题,确保每个语言版本的数据集具有一致的结构和格式,从而为多语言阅读理解模型的训练和评估提供了丰富的资源。
特点
Belebele_N100数据集的主要特点在于其多语言和多书写系统的覆盖范围,支持多种语言的阅读理解任务。每个语言版本的数据集都包含100个测试样本和5个训练样本,确保了数据集的多样性和实用性。此外,数据集的结构设计使得每个样本都包含完整的阅读理解问题和答案选项,便于模型进行多选题的训练和评估。这种设计不仅提高了数据集的实用性,还为跨语言阅读理解研究提供了宝贵的资源。
使用方法
Belebele_N100数据集适用于多语言阅读理解模型的训练和评估。用户可以通过加载特定的语言配置文件来访问相应语言的数据集,并使用其中的训练和测试数据进行模型训练和性能评估。数据集的结构清晰,包含问题、段落、答案选项和正确答案编号,便于模型进行多选题的预测和验证。此外,数据集的多样性使得它适用于跨语言阅读理解的研究,帮助模型在不同语言环境下进行泛化能力的测试和提升。
背景与挑战
背景概述
Belebele_N100数据集是由多个研究人员或机构共同创建的,旨在推动多语言阅读理解任务的研究。该数据集包含了多种语言的阅读理解问题,涵盖了从阿拉伯语到藏语等多种语言的变体。其核心研究问题在于评估和提升多语言模型的阅读理解能力,特别是在低资源语言上的表现。通过提供丰富的多语言数据,Belebele_N100为研究者提供了一个重要的基准,以测试和改进自然语言处理模型在跨语言环境下的性能。
当前挑战
Belebele_N100数据集在构建过程中面临了多重挑战。首先,多语言数据的收集和标注是一个复杂且耗时的过程,尤其是在低资源语言上,数据的获取和质量控制尤为困难。其次,不同语言之间的语法结构和文化背景差异使得模型的跨语言迁移变得更加复杂。此外,数据集的多样性和规模也带来了计算资源和模型训练效率的挑战。最后,如何确保模型在不同语言上的公平性和一致性评估也是一个重要的研究问题。
常用场景
经典使用场景
Belebele_N100数据集在多语言阅读理解任务中展现了其经典应用场景。该数据集通过提供多种语言的阅读材料和多选题,帮助研究者评估模型在不同语言环境下的理解能力。其多样的语言配置和丰富的文本内容,使得该数据集成为跨语言自然语言处理(NLP)研究中的重要工具。
实际应用
在实际应用中,Belebele_N100数据集可用于开发和优化多语言教育工具、语言学习应用以及跨语言信息检索系统。通过利用该数据集,开发者可以构建能够理解多种语言的智能系统,从而提升用户体验和应用的广泛适用性。此外,该数据集还可用于多语言内容审核和自动翻译系统,进一步推动全球化信息交流。
衍生相关工作
基于Belebele_N100数据集,研究者们开发了多种多语言模型和跨语言迁移学习方法。例如,一些研究工作利用该数据集进行多语言预训练模型的微调,以提升模型在特定语言任务上的表现。此外,该数据集还激发了关于多语言阅读理解任务的基准测试和评估方法的研究,推动了多语言NLP领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作