Vicomtech/just-eval-instruct-es

Name: Vicomtech/just-eval-instruct-es
Creator: Vicomtech
Published: 2026-04-30 13:41:01
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Vicomtech/just-eval-instruct-es

下载链接

链接失效反馈

官方服务：

资源简介：

Just-Eval ES是re-align/just-eval-instruct数据集的西班牙语改编版本，用于多语言指令跟随评估。该数据集是手动修订的西班牙语和法语Just-Eval改编版本之一，并在《In-context learning vs. instruction tuning: The case of small and multilingual language models》一文中被引入。数据集包含一个JSON Lines格式的文件，其中包含指令示例。

Just-Eval ES is a Spanish adaptation of re-align/just-eval-instruct for multilingual instruction-following evaluation. It is part of the manually revised Spanish and French Just-Eval adaptations introduced in *In-context learning vs. instruction tuning: The case of small and multilingual language models*. The dataset contains a JSON Lines file with instruction examples.

提供机构：

Vicomtech

搜集汇总

数据集介绍

构建方式

Just-Eval ES 是源自 re-align/just-eval-instruct 数据集的西班牙语适配版本，专为多语言指令遵循评估而设计。该数据集由研究人员在论文《In-context learning vs. instruction tuning: The case of small and multilingual language models》中手工修订，确保翻译和本地化质量。其构建过程包括从原始英文指令集出发，通过人工翻译与语义校验，生成与西班牙语语境高度契合的评估样本，最终以 JSON Lines 格式存储于 data/instructions.jsonl 文件中。

特点

Just-Eval ES 的核心特点在于其聚焦于西班牙语的指令遵循评估，填补了多语言模型评估中西班牙语资源的空白。数据集规模处于 1K 至 10K 之间，既保证了样本多样性，又便于高效实验。作为手工修订版本，它保留了原始任务的复杂性——如推理、生成与遵循多重约束，同时融入西班牙语特有的语言结构，为大模型提供严谨且真实的多语言测试基准。

使用方法

Just-Eval ES 主要面向研究人员与开发者，用于评估西班牙语环境下的大语言模型指令遵循能力。用户可通过 Hugging Face 直接加载数据集，读取 instructions.jsonl 文件中的每条样本，将指令输入待测模型，并依据输出结果进行自动或人工评分。结合其原始论文中的实验设定，该数据集适用于对比不同规模模型在跨语言场景下的表现，尤其适合多语言课堂或低资源语言的迁移学习研究。

背景与挑战

背景概述

在自然语言处理领域，指令微调与上下文学习是提升语言模型任务遵循能力的核心范式，然而多语言场景下的评估资源长期稀缺。Just-Eval Instruct ES数据集由David Ponce与Thierry Etchegoyhen于2025年创建，是西班牙语指令遵循评估的专门基准。该数据集源于对多语言小模型的深入探索，旨在弥补现有评估工具在非英语语言上的不足。作为Just-Eval Instruct的西班牙语改编版，其构建依托于专业的人工修订流程，为评估模型在多语言环境下的指令理解与执行能力提供了可靠依据，对推动西班牙语计算语言学研究及多语言模型发展具有重要价值。

当前挑战

该数据集所应对的领域挑战是英语中心化评估体系在多语言场景下的失效问题，现有基准难以准确衡量模型对西班牙语指令的遵循能力。在构建过程中，面临的挑战包括：一是源数据集自动翻译后产生的语义偏差与指令理解失真，需要通过人工修订确保文化适应性与语言自然度；二是西班牙语口语变体与地域表达差异带来的标注一致性难题；三是如何在小样本规模（1K-10K）内平衡覆盖任务多样性，避免评估结果受数据稀疏性影响。

常用场景

经典使用场景

Just-Eval-instruct-ES作为西班牙语指令遵循评估数据集，在自然语言处理领域承担着衡量多语言大语言模型在西班牙语环境下表现的核心角色。该数据集基于原有的Just-Eval-Instruct进行人工修订与本地化适配，涵盖了涵盖日常对话、知识问答、文本生成等多种指令类型，为研究者提供了检验模型理解西班牙语细微语法结构、文化语境及表达习惯的标准测试平台。通过构建一组高质量、多样化的指令样例，它使评估过程更加贴近真实用户场景，成为对比不同规模与架构模型在西班牙语上指令遵循能力的基准工具。

解决学术问题

该数据集解决了多语言大语言模型在非英语语言（尤其是西班牙语）上指令遵循能力的系统化评估缺失问题。先前主流评估基准多集中于英语，忽略了对稀疏语言资源的细粒度检验，导致模型在西班牙语环境下的鲁棒性和泛化能力难以衡量。Just-Eval-instruct-ES通过提供人工精校的西班牙语指令样本，使学术界能够客观评估模型在处理具有丰富形态变化、复杂时态体系及文化偏好的西班牙语指令时的表现，揭示了词嵌入偏差、上下文理解局限等问题，推动了关于小规模多语言模型在少资源语言上效能差异的深入研究。

衍生相关工作

Just-Eval-instruct-ES衍生了一系列围绕多语言指令评估与模型间知识迁移的研究工作。其原始论文《In-context learning vs. instruction tuning: The case of small and multilingual language models》即基于该数据集对比了小模型在上下文学习与指令微调两种范式下的西班牙语表现差异。后续研究者借鉴其构建方法论，扩展开发了法语、阿拉伯语等变体版，形成了统一的跨语言评估框架。更有工作利用该数据集分析预训练语料中西班牙语占比对指令遵循效果的影响，促成了针对资源匮乏语言的新型数据增强和迁移学习策略的探讨。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集