just-eval-instruct-eu

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Vicomtech/just-eval-instruct-eu

下载链接

链接失效反馈

官方服务：

资源简介：

Just-Eval EUS是一个用于指令响应质量评估的巴斯克语基准数据集。它是`re-align/just-eval-instruct`数据集的巴斯克语适配版本，专门为研究低资源语言环境下的大语言模型自动评估能力而构建。该数据集源自论文《Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque》，通过对原英文Just-Eval基准进行翻译和人工后编辑得到。数据以JSON Lines格式存储，样本数量在1,000到10,000条之间。核心任务是评估模型对给定指令所生成回答的质量，关注回答的细粒度属性，并扩展了评判回答语言一致性和语法正确性的评估维度。该数据集旨在服务于研究在巴斯克语这类低资源场景下，不同大语言模型作为自动评判者的性能表现、它们与人类评判结果的相关性，以及人类评判本身作为可靠基准的可行性评估。

Just-Eval EUS is a Basque benchmark dataset for instruction response quality evaluation. It is a Basque adaptation of the `re-align/just-eval-instruct` dataset, specifically constructed to study the automatic evaluation capabilities of large language models in low-resource language environments. The dataset originates from the paper Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque, obtained by translating and manually post-editing the original English Just-Eval benchmark. Data is stored in JSON Lines format, with sample sizes ranging from 1,000 to 10,000. The core task is to evaluate the quality of model-generated responses to given instructions, focusing on fine-grained attributes of the responses. Additionally, it extends an evaluation dimension specifically for judging language consistency and grammatical correctness of responses. The dataset aims to serve research exploring the performance of different large language models as automatic judges (LLM-as-a-judge) in low-resource scenarios like Basque, their correlation with human judgments, and the feasibility assessment of human judgments as a reliable benchmark.

创建时间：

2026-04-30

搜集汇总

数据集介绍

构建方式

Just-Eval EUS数据集是针对低资源语言巴斯克语进行指令响应评估的专门化基准。其构建基于对现有Just-Eval基准的深度本地化适配，首先通过机器翻译将原始英文指令集转换为巴斯克语，随后由母语者进行精细的人工后编辑以确保语义准确性与语言自然度。此外，该数据集特别引入了一个新颖的评估维度，用于同时评判语言一致性与语法正确性，从而更全面地捕捉巴斯克语环境下响应质量的细微特征。最终形成的指令集以JSON Lines格式存储，包含近万条精心校对的巴斯克语评估样本。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行使用。数据集采用标准的JSON Lines格式，每一行包含一条巴斯克语指令，便于与各类评估框架集成。用户既可将其作为独立评估工具，调用大型语言模型生成响应后对照数据集评分标准进行评判；也可与原始英文版本的Just-Eval基准进行对比分析，研究跨语言迁移评估的性能差异。数据集采用MIT开源许可，便于学术研究与商业应用的广泛使用。

背景与挑战

背景概述

Just-Eval EUS 是一个面向低资源语言巴斯克语的指令响应评估数据集，由 David Ponce、Harritxu Gete、Thierry Etchegoyhen、Irune Zubiaga 和 Aitor Soroa 等研究者于 2026 年创建，相关成果发表于 LREC 2026。该数据集源于对通用评估基准 Just-Eval 的本地化适配，通过翻译与人工后编辑构建，旨在填补低资源语言环境下自动评估工具的空白。核心研究问题在于验证大语言模型作为自动裁判在巴斯克语上的可靠性，并探究人类评判间的内在一致性。其影响力体现在为低资源语言评估领域提供了基线方法与实证依据，推动了多语言评估技术的公平性发展。

当前挑战

该数据集所解决的领域挑战包括：低资源语言中缺乏高质量、细粒度的指令响应评估基准，且现有大语言模型作为自动裁判在非英语场景下的表现尚不明确。构建过程中遇到的挑战有：源语言基准的翻译与后编辑需兼顾语言一致性与语法正确性，这要求人工标注者具备双语能力与评估一致性；此外，新增的语言连贯性与语法评估维度增加了标注复杂度，需制定专门的评判准则以确保数据质量。人类评估者间的一致性较低也凸显了主观评判的固有困难，进一步限制了自动裁判与人类参考的可靠关联。

常用场景

经典使用场景

Just-Eval Instruct-EU 数据集的核心应用在于为低资源语言（以巴斯克语为例）提供细粒度的指令响应质量评估基准。该数据集通过对原有 Just-Eval 基准进行翻译与人工后编辑，构建了涵盖流畅性、相关性、忠实度、语言一致性和语法正确性等多维度的评估体系。研究者利用该数据集可系统性地比较大型语言模型在低资源语言场景下的自动评判能力，从而揭示模型在非主流语言上表现出的性能偏差与局限。

解决学术问题

该数据集精准回应了低资源语言环境下指令响应自动评估面临的学术困境：人类评估受限于规模与成本，而基于大型语言模型的自动评判在低资源语境下的可靠性尚未明确。通过引入人工判断的细粒度标注，Just-Eval Instruct-EU 为衡量模型评判与人类判断之间的相关性提供了关键参照，并揭示了现有模型在巴斯克语等低资源语言上与人类一致性较弱的现实，进而催生了对专用评判模型开发的迫切需求。

实际应用

在实际应用中，该数据集可服务于巴斯克语等低资源语言的自然语言处理系统研发，尤其是用于测评和改进对话助手、虚拟教师、内容生成工具等应用对指令的理解与响应质量。通过该基准，开发者能够识别模型在语言一致性或语法正确性等具体维度上的短板，进而有针对性地优化模型训练策略。此外，该数据集亦可用于多语言评估系统的拓展，帮助构建更公平、包容的语言技术生态。

数据集最近研究