Vicomtech/just-eval-instruct-eu

Name: Vicomtech/just-eval-instruct-eu
Creator: Vicomtech
Published: 2026-04-30 13:47:28
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Vicomtech/just-eval-instruct-eu

下载链接

链接失效反馈

官方服务：

资源简介：

Just-Eval EUS是`re-align/just-eval-instruct`的巴斯克语版本，如论文《Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque》中所介绍和描述的。数据集包含JSON Lines格式的指令示例。

Just-Eval EUS is a Basque adaptation of `re-align/just-eval-instruct`, as introduced and described in the paper *Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque*. The dataset contains instruction examples in JSON Lines format.

提供机构：

Vicomtech

搜集汇总

数据集介绍

构建方式

Just-Eval EUS是面向低资源语言巴斯克语构建的指令响应质量评估数据集，基于英文just-eval-instruct基准进行翻译与人工后期编辑而成。构建过程中，研究者将原始指令集逐条翻译为巴斯克语，并由母语者进行精细校对，确保语义准确与语言自然。此外，数据集还引入了一个全新评估维度——语言一致性与语法正确性，用以更全面地衡量模型在低资源场景下的响应质量。最终数据以JSON Lines格式存储于instruction.jsonl文件中，规模在1千至1万条之间。

特点

该数据集专为低资源语言评估设计，填补了巴斯克语在LLM自动评判领域的空白。其核心特点包括：通过人工后期编辑确保翻译质量，支持细粒度响应质量的多维度评价，并新增语言一致性与语法正确性评估类别。作为just-eval-instruct的巴斯克语适配版，它保留了原基准的评估框架，同时针对低资源语言特性进行了本土化调整，为研究LLM在非主流语言上的表现提供了可靠工具。

使用方法

数据集以标准JSON Lines格式提供，便于直接集成到评估流程中。用户可加载instruction.jsonl文件获取巴斯克语指令，并利用其中的标注信息进行模型响应的自动化或人工评判。结合论文中提出的评估方法论，该数据集适用于对比不同LLM在巴斯克语上的指令遵循能力，尤其适用于探索低资源场景下自动评判与人类判断的一致性。引用时需注明相关论文信息。

背景与挑战

背景概述

Just-Eval EUS 数据集是由 David Ponce、Harritxu Gete、Thierry Etchegoyhen、Irune Zubiaga 和 Aitor Soroa 等研究者于 2026 年创建的，旨在应对低资源语言（如巴斯克语）中指令响应质量评估的挑战。该数据集是对 re-align/just-eval-instruct 基准的巴斯克语适配版本，通过翻译和人工后编辑生成，并扩展了语言一致性与语法正确性评估维度。其核心研究问题在于探究大型语言模型作为自动评判者在低资源场景下的可靠性，以及人类评判者之间的一致性，为低资源语言评估领域提供了关键资源。该数据集的出现推动了多语言评估基准的发展，尤其对巴斯克语自然语言处理研究具有重要影响力。

当前挑战

该数据集面临的主要挑战包括：1）领域问题层面，低资源语言（如巴斯克语）中缺乏大规模高质量指令响应评估数据，且现有自动评判模型在低资源场景下与人类评判的相关性极低，难以作为可靠的评估工具；2）构建过程中，需将英语基准精准翻译并人工后编辑为巴斯克语，同时设计语言一致性与语法正确性等新评估类别，确保文化适配性和标注一致性，工作繁琐且成本高昂。此外，人类评判者之间在细粒度质量评估上的一致性有限，进一步增加了以人类评判作为黄金标准的复杂性。

常用场景

经典使用场景

Just-Eval Instruct EUS 是首个面向巴斯克语的指令响应细粒度评估基准数据集。它通过将现有的 Just-Eval 基准翻译并人工后编辑，构建了一套包含多样指令及多维度质量标注的测试集，专用于评估大型语言模型（LLM）在低资源语言场景下作为自动裁判的可靠性。该数据集最经典的使用场景是衡量 LLM 在巴斯克语指令遵循任务上的表现，尤其关注模型在帮助性、相关性、准确性、深度、创造性和语言一致性等细粒度维度的评判能力。研究者和开发者可以利用该数据集设计对照实验，比较不同 LLM 与人类评估者之间的评分相关性，从而验证自动评估框架在低资源语言中的有效性与局限性。

实际应用

在实际应用中，Just-Eval Instruct EUS 可直接服务于巴斯克语智能问答系统、对话式人工智能助手以及自然语言生成服务的质量监控。科技企业和研究机构可以使用该数据集作为测试平台，筛选和微调最适合巴斯克语环境的大型语言模型，确保其在提供信息、创作内容或辅助决策时输出的响应符合当地用户的预期标准。此外，该数据集还支持教育领域的语言学习工具开发，帮助评估模型生成的练习问题和解析是否清晰、准确且语法正确。对于政府或公共服务部门部署的自动化客服系统而言，Just-Eval Instruct EUS 的细粒度评估维度（包括语言一致性和语法性）能够有效保障巴斯克语环境下数字服务的语言规范性，从而提升用户体验并维护少数民族语言在技术媒介中的生命力。

衍生相关工作

基于 Just-Eval Instruct EUS 数据集，衍生出一系列推动低资源语言评估研究的经典工作。原始论文《Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque》首次揭示了先进 LLM 作为裁判在巴斯克语上的性能瓶颈，催生了针对该语言的专属裁判模型研发。随后，有研究团队以此数据集为基础，探索多任务微调、提示工程以及跨语言知识迁移等方法，力图提升自动评估的准确性。此外，该数据集也被用于构建更完善的元评估框架，推动了低资源语言场景下评估指标的设计创新。在更广泛的层面上，Just-Eval Instruct EUS 的构建范式被借鉴至其他少数民族语言，如加泰罗尼亚语和加利西亚语，促进了一系列跨语言评估数据集的涌现，潜移默化地修正了 NLP 领域长期由高资源语言主导的评估生态格局。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集