ebaluatoia

Name: ebaluatoia
Creator: HiTZ zentroa
Published: 2025-06-10 15:15:49
License: 暂无描述

Hugging Face2025-06-10 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/HiTZ/ebaluatoia

下载链接

链接失效反馈

官方服务：

资源简介：

Ebaluatoia是一个巴斯克语言模型的人类偏好数据集，通过社区驱动的竞技场式评估方式收集，用于评估特定针对巴斯克语言的指令调优语言模型。数据集包含1285名参与者对21种不同语言模型的响应进行比较的超过12000个偏好注释。

提供机构：

HiTZ zentroa

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

在低资源语言技术评估领域，Ebaluatoia数据集通过社区驱动的竞技场式评估方法构建。该数据集收集了来自1,285名巴斯克语使用者的12,890条偏好标注，参与者使用自定义提示词与21个不同语言模型进行对话，并基于内容质量和语言质量两个维度对模型响应进行匿名对比评估。数据采集采用vLLM模型服务框架和定制化Gradio交互界面，通过14天的集中评估活动完成，期间实施了质量监控机制以排除恶意参与行为，确保了数据采集的科学性和可靠性。

特点

作为巴斯克语首个人类偏好数据集，Ebaluatoia呈现出显著的低资源语言特性与多维评估优势。数据集全面覆盖了包括Llama 3.1变体、GPT-4o和Claude 3.5 Sonnet在内的21个模型对比数据，每个样本均包含完整的对话线程和三维评估结果（总体偏好、内容质量、语言质量）。特别值得注意的是，该数据集精准记录了参与者的语言熟练度（79.8%为高级或母语水平）和教育背景（72.5%为学士及以上学历），为研究语言模型在不同用户群体中的表现差异提供了珍贵的数据支撑。

使用方法

该数据集主要应用于巴斯克语语言模型的人类偏好建模与评估研究。研究人员可通过解析JSONL格式的数据文件，获取模型对话对比数据及多维度标注结果。数据集采用CC0 1.0许可协议，支持无障碍使用于模型训练、评估基准构建及跨语言对比研究等场景。对于偏好学习任务，建议重点关注winner、winner_content和winner_language三个标注字段，这些字段分别对应整体偏好、内容质量优势和语言质量优势的评估结果，为训练奖励模型或进行模型性能分析提供关键信号。

背景与挑战

背景概述

在低资源语言技术发展的背景下，巴斯克大学HiTZ语言技术中心于2025年创建了Ebaluatoia数据集，旨在系统研究巴斯克语指令微调大语言模型的评估方法。该数据集作为巴斯克语首个人类偏好标注资源，通过社区驱动的竞技场评估模式收集了12,890条偏好标注，涉及21个语言模型的对比评估，包括Llama变体及GPT-4o、Claude 3.5等专有模型。这项工作填补了巴斯克语作为千分之一网络资源占比语言的技术评估空白，为低资源语言模型的优化提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决低资源语言模型评估中人类偏好建模的复杂性，需准确捕捉巴斯克语在内容质量和语言质量双重维度上的细微差异。构建过程中面临参与者 demographics 偏差的挑战，72.5%的高学历用户和79.8%的高水平语言使用者可能导致偏好数据向正式语体倾斜；同时需克服社区驱动收集中的质量管控难题，通过监测机制防止奖励制度引发的低质量标注，并处理多模型并行评估时产生的对话上下文一致性维护问题。

常用场景

经典使用场景

在自然语言处理领域，Ebaluatoia数据集为巴斯克语大语言模型的评估提供了重要基准。该数据集通过竞技场式评估方法，系统收集了超过1.2万条人类偏好标注，涵盖21个不同语言模型的对话响应比较。研究者利用这些数据深入分析模型在内容质量和语言质量两个维度的表现差异，为低资源语言模型的优化提供实证依据。

解决学术问题

该数据集有效解决了低资源语言模型评估资源匮乏的学术难题。通过社区驱动的评估活动，它填补了巴斯克语作为少数语言在指令调优模型评估方面的空白。数据集的多维度标注机制为研究语言模型在内容生成和语言规范性方面的权衡提供了宝贵数据，推动了低资源语言处理技术的方法论创新。

衍生相关工作

该数据集催生了多项重要研究，包括基于人类反馈的强化学习（RLHF）在低资源语言的适配方法。相关研究探索了多维度偏好建模技术，并发展了针对少数语言模型的评估框架。这些工作不仅提升了巴斯克语模型性能，也为其他低资源语言提供了可迁移的技术方案，推动了语言技术民主化进程。

以上内容由遇见数据集搜集并总结生成