five

belebele-fleurs-train-val-text

收藏
Hugging Face2024-12-17 更新2024-12-18 收录
下载链接:
https://huggingface.co/datasets/WueNLP/belebele-fleurs-train-val-text
下载链接
链接失效反馈
官方服务:
资源简介:
Belebele-Fleurs训练和验证数据集是为Belebele基准测试准备的,适合用于微调语言模型进行多项选择分类任务。数据集包含passage、question、answer等多个特征,以及对应的正确答案。数据集分为训练集和验证集,分别包含67541和3773个样本。
创建时间:
2024-12-12
原始信息汇总

Belebele-Fleurs Training and Validation Data

数据集概述

  • 语言: 英语 (en)
  • 数据集类型: 训练和验证数据集
  • 适用任务: 多选分类任务的微调

数据集结构

特征 (Features)

  • dataset: 数据集名称 (string)
  • passage_id: 段落ID (string)
  • question_id: 问题ID (string)
  • passage: 段落内容 (string)
  • question: 问题内容 (string)
  • answer1: 选项1 (string)
  • answer2: 选项2 (string)
  • answer3: 选项3 (string)
  • answer4: 选项4 (string)
  • correct_answer: 正确答案 (string)
  • correct_answer_num: 正确答案编号 (int64)
  • index_level_0: 索引级别0 (int64)

数据分割 (Splits)

  • train: 训练集,包含67541个样本,大小为95520563字节
  • validation: 验证集,包含3773个样本,大小为5458773字节

数据文件 (Data Files)

  • train: 训练集数据文件路径为 data/train-*
  • validation: 验证集数据文件路径为 data/validation-*

数据集大小

  • 下载大小: 36828848字节
  • 数据集总大小: 100979336字节

示例

python from datasets import load_dataset

dataset = load_dataset("WueNLP/belebele-fleurs-train-val-text", split="train") print(dataset[0])

{dataset: sciQ,

passage_id: 5635,

question_id: 0,

passage: Mesophiles grow best in moderate temperature, typically between 25°C and 40 °C (77°F and 104°F). Mesophiles are often found living in or on the bodies of humans or other animals. The optimal growth temperature of many pathogenic mesophiles is 37°C (98° F), the normal human body temperature. Mesophilic organisms have important uses in food preparation, including cheese, yogurt, beer and wine.,

question: What type of organism is commonly used in preparation of foods such as che ese and yogurt?,

answer1: viruses,

answer2: mesophilic organisms,

answer3: gymnosperms,

answer4: protozoa,

correct_answer: mesophilic organisms,

correct_answer_num: 2,

index_level_0: 0}

引用

@inproceedings{bandarkar-etal-2024-belebele, title = "The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants", author = "Bandarkar, Lucas and Liang, Davis and Muller, Benjamin and Artetxe, Mikel and Shukla, Satya Narayan and Husa, Donald and Goyal, Naman and Krishnan, Abhinandan and Zettlemoyer, Luke and Khabsa, Madian", booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = aug, year = "2024", address = "Bangkok, Thailand and virtual meeting", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.acl-long.44", pages = "749--775", }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Belebele基准测试,通过运行原始作者提供的assemble_training_set.py脚本进行数据汇编。这一过程确保了数据集的高质量和多样性,适用于多选分类任务的语言模型微调。
特点
该数据集的特点在于其包含了丰富的多选题信息,涵盖了文本段落、问题、四个候选答案以及正确答案的详细标注。此外,数据集的结构化设计使得每个样本都具有明确的标识符,便于模型训练和验证。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库加载数据,并根据需要选择训练集或验证集。数据集的格式设计便于直接用于多选分类任务的模型训练,用户可以通过简单的代码示例快速上手,并进行模型的微调与评估。
背景与挑战
背景概述
Belebele-Fleurs-Train-Val-Text数据集是由Facebook研究团队于2024年推出的一个多选阅读理解数据集,旨在为语言模型在多选分类任务上的微调提供支持。该数据集基于Belebele基准,包含了122种语言变体的平行阅读理解数据,主要研究人员包括Lucas Bandarkar、Davis Liang等。其核心研究问题在于如何通过大规模的多语言数据集提升语言模型的跨语言理解能力,尤其是在阅读理解任务中的表现。该数据集的推出对多语言自然语言处理领域具有重要影响,为跨语言模型的评估和改进提供了新的基准。
当前挑战
Belebele-Fleurs-Train-Val-Text数据集在构建过程中面临的主要挑战包括:首先,多语言数据的收集和标注工作复杂且耗时,尤其是在122种语言变体中保持数据的一致性和质量;其次,如何在多选分类任务中确保答案的准确性和多样性,避免模型过度依赖特定语言的特征。此外,数据集的规模和多样性也对模型的训练和评估提出了更高的要求,尤其是在处理低资源语言时,模型的泛化能力面临严峻考验。
常用场景
经典使用场景
Belebele-Fleurs数据集主要用于微调语言模型,特别是在多选分类任务中。其经典使用场景包括但不限于:通过提供包含文本段落、问题和多个答案选项的数据,训练模型以识别正确答案。这种任务类型在自然语言处理领域中广泛应用于阅读理解、问答系统等场景,尤其在需要模型具备多语言理解能力的情境下,该数据集的价值尤为突出。
实际应用
在实际应用中,Belebele-Fleurs数据集可用于开发和优化多语言问答系统、智能客服、教育辅助工具等。例如,在跨国企业中,该数据集可用于训练能够理解并处理多语言查询的智能助手,从而提升客户服务效率。此外,在教育领域,该数据集也可用于构建多语言学习平台,帮助学生通过不同语言进行知识获取和问题解答。
衍生相关工作
基于Belebele-Fleurs数据集,研究者们开展了多项相关工作,包括但不限于:多语言模型的跨语言迁移学习、多语言阅读理解模型的性能评估、以及多语言问答系统的开发。这些工作不仅深化了对多语言处理技术的理解,还推动了相关领域的技术进步。例如,有研究利用该数据集进行多语言BERT模型的微调,显著提升了模型在多语言环境下的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作