LumiOpen/arc_challenge_mt

Name: LumiOpen/arc_challenge_mt
Creator: LumiOpen
Published: 2025-01-30 11:37:58
License: 暂无描述

Hugging Face2025-01-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/LumiOpen/arc_challenge_mt

下载链接

链接失效反馈

官方服务：

资源简介：

机器翻译的arc_challenge数据集，包含多种语言的训练、测试和验证数据。

Machine translated arc_challenge datasets, including training, testing, and validation data in multiple languages.

提供机构：

LumiOpen

原始信息汇总

数据集概述

数据集许可证

许可证: Apache-2.0

数据集配置

配置名称: da
- 训练数据路径: da/train*
- 测试数据路径: da/test*
- 验证数据路径: da/validation*
配置名称: fi
- 训练数据路径: fi/train*
- 测试数据路径: fi/test*
- 验证数据路径: fi/validation*
配置名称: nb
- 训练数据路径: nb/train*
- 测试数据路径: nb/test*
- 验证数据路径: nb/validation*
配置名称: sv
- 训练数据路径: sv/train*
- 测试数据路径: sv/test*
- 验证数据路径: sv/validation*
配置名称: de
- 训练数据路径: de/train*
- 测试数据路径: de/test*
- 验证数据路径: de/validation*
配置名称: el
- 训练数据路径: el/train*
- 测试数据路径: el/test*
- 验证数据路径: el/validation*
配置名称: es
- 训练数据路径: es/train*
- 测试数据路径: es/test*
- 验证数据路径: es/validation*
配置名称: hu
- 训练数据路径: hu/train*
- 测试数据路径: hu/test*
- 验证数据路径: hu/validation*
配置名称: it
- 训练数据路径: it/train*
- 测试数据路径: it/test*
- 验证数据路径: it/validation*
配置名称: pl
- 训练数据路径: pl/train*
- 测试数据路径: pl/test*
- 验证数据路径: pl/validation*
配置名称: pt
- 训练数据路径: pt/train*
- 测试数据路径: pt/test*
- 验证数据路径: pt/validation*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言推理能力的评估日益受到重视。LumiOpen/arc_challenge_mt数据集基于经典的ARC挑战集，通过机器翻译技术构建而成。该数据集采用DeepL翻译引擎，将原始的英文科学问题与答案选项系统地转化为包括丹麦语、芬兰语、法语、挪威语、瑞典语、德语、希腊语、西班牙语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、保加利亚语、捷克语、爱沙尼亚语、立陶宛语、拉脱维亚语、罗马尼亚语、斯洛伐克语和斯洛文尼亚语在内的二十余种语言版本。每个语言配置均严格遵循原始数据划分，包含训练集、验证集和测试集，确保了数据结构的完整性与一致性，为跨语言知识迁移研究提供了坚实基础。

特点

该数据集的核心特点在于其广泛的语言覆盖与高质量的对齐翻译。它不仅涵盖了主要欧洲语言，还纳入了多个中东欧语言，显著拓展了多语言推理任务的评估边界。数据集忠实保留了ARC挑战集原有的科学问答形式，每个问题均涉及复杂的推理过程，要求模型理解科学概念并进行逻辑推断。翻译过程注重术语准确性与语境一致性，力求在语言转换中维持原问题的认知难度与知识深度。这种设计使得研究者能够在统一的认知任务框架下，系统比较不同语言模型或跨语言模型的推理性能，揭示了语言特性对复杂问题解决的影响。

使用方法

研究人员可利用该数据集进行多语言自然语言理解模型的训练与评估。典型应用包括零样本或少样本的跨语言迁移学习，即在一个语言上训练的模型，直接在其他语言版本的数据集上进行测试，以探究模型的语言泛化能力。数据集的标准化分割便于进行公平的基准测试，用户可加载特定语言配置（如`config_name: 'fr'`）来获取法语数据。通过Hugging Face `datasets`库，能够便捷地访问与处理这些数据，进而评估模型在多种语言上的科学推理准确性，推动构建更具语言鲁棒性的人工智能系统。

背景与挑战

背景概述

在自然语言处理领域，多语言推理能力的评估一直是推动人工智能通用智能发展的核心议题。LumiOpen/arc_challenge_mt数据集应运而生，它基于原始的ARC（AI2 Reasoning Challenge）挑战数据集，由艾伦人工智能研究所（AI2）于2018年创建，旨在测试模型在科学领域进行复杂推理的能力。该多语言版本通过机器翻译将这一经典基准扩展至包括丹麦语、芬兰语、法语、德语、希腊语、西班牙语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、保加利亚语、捷克语、爱沙尼亚语、立陶宛语、拉脱维亚语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、挪威语、瑞典语在内的二十余种语言，显著提升了其在跨语言自然语言理解研究中的影响力，为评估模型在不同语言文化背景下的知识迁移与推理泛化性能提供了重要资源。

当前挑战

该数据集致力于解决多语言环境下机器推理的评估挑战，其核心难题在于确保翻译后的科学问题在不同语言中保持逻辑一致性与文化适应性，避免因直译导致的语义偏差或知识丢失。在构建过程中，面临的主要挑战涉及大规模高质量机器翻译的技术实现，需在数十种语言间平衡翻译准确度与成本效率；同时，还需处理源语言（英语）中蕴含的特定科学术语与语境在目标语言中的等效表达，以及维护不同语言版本间数据分割与标签的对齐完整性，这对构建跨语言可比的评估基准提出了严峻考验。

常用场景

经典使用场景

在自然语言处理领域，多语言推理能力的评估是衡量模型泛化性能的关键环节。LumiOpen/arc_challenge_mt数据集作为ARC挑战赛的多语言机器翻译版本，其经典使用场景在于为研究者提供一个跨语言的科学问答基准测试平台。该数据集涵盖了从丹麦语到斯洛文尼亚语等多种欧洲语言，使得模型能够在不同语言环境下接受严格的推理能力检验，从而推动多语言智能系统的发展。

解决学术问题

该数据集有效解决了多语言环境下机器阅读理解与推理模型评估标准缺失的学术难题。通过提供高质量的多语言科学问题对，它使得研究者能够系统性地探究模型在跨语言迁移中的知识泛化能力与逻辑推理瓶颈。其意义在于为多语言自然语言处理研究建立了可比较的评估框架，促进了语言无关的推理模型设计，对推动人工智能的公平性与包容性具有深远影响。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多语言预训练模型的适应性微调与跨语言迁移学习策略的创新上。研究者们利用其多语言特性，开发了诸如XLM-R和mT5等模型在科学推理任务上的微调方法，并深入探讨了语言间知识转移的机制。这些工作显著提升了模型在低资源语言上的推理性能，为后续的多语言复杂推理研究开辟了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集