GRUFF

Name: GRUFF
Creator: 汉堡大学·可信人工智能实验室; 海德堡理论研究所; JobMatchMe有限公司
Published: 2026-05-29 00:47:46
License: 暂无描述

arXiv2026-05-29 更新2026-05-30 收录

下载链接：

https://github.com/TAI-HAMBURG/gruff

下载链接

链接失效反馈

官方服务：

资源简介：

GRUFF是由汉堡大学可信人工智能实验室等机构创建的首个大规模德语代词忠实度评估数据集，旨在研究语言模型在德语中正确跟踪和复现代词的能力。该数据集覆盖四种名词一致性系统和四组代词，包含超过七百万个独特实例，通过模板组合生成，数据来源于职业-参与者对的德语翻译及语法结构模板。其创建过程涉及将英语RUFF模板翻译并重构以适应德语语法复杂性，包括名词系统与代词集的配对及人工验证。该数据集应用于自然语言处理领域，专门用于评估语言模型在德语中的代词忠实度、推理能力及性别偏见，旨在推动性别包容性语言和指代推理研究，解决模型在复杂语境下代词使用的准确性与公平性问题。

GRUFF is the first large-scale German pronoun faithfulness evaluation dataset developed by the Trusted Artificial Intelligence Laboratory at the University of Hamburg and other institutions. It is designed to investigate the ability of language models to correctly track and resolve pronouns in German. The dataset covers four noun agreement systems and four sets of pronouns, contains over seven million unique instances, and is generated via template combinations, with its data sourced from German translations of career-participant pairs and grammatical structure templates. Its creation process involved translating and reconstructing English RUFF templates to accommodate the grammatical complexity of German, including the pairing of noun systems and pronoun sets, as well as manual validation. This dataset is applied in the field of natural language processing, specifically for evaluating the pronoun faithfulness, reasoning capabilities and gender bias of language models in German. It aims to advance research on gender-inclusive language and referential reasoning, and address the issues of accuracy and fairness in pronoun usage by models in complex contextual environments.

提供机构：

汉堡大学·可信人工智能实验室; 海德堡理论研究所; JobMatchMe有限公司

创建时间：

2026-05-29

原始信息汇总

数据集概述

数据集名称：GRUFF
地址：https://github.com/TAI-HAMBURG/gruff
语言：德语
类型：德语代词评估数据集

主要用途

生成德语代词评估项目
添加显性和隐性上下文干扰项
抽取平衡的评估子集
对语言模型在二元和非二元代词形式上进行评分

仓库内容

data/：任务和上下文生成的源TSV文件
- task.tsv
- context.tsv
scripts/：用于生成、采样和模型评分的Python脚本
- 包括baseline_task.py、add_context.py、sample_templates.py、sample_for_humans.py、score_models.py等

核心工作流程

从项目根目录执行以下脚本管线：

python scripts/baseline_task.py
python scripts/add_context.py tasks_no_context.tsv data/context.tsv
python scripts/sample_templates.py
python scripts/sample_for_humans.py
python scripts/score_models.py 11_*.tsv 13_*.tsv 15_*.tsv

重要注意事项

在分享或发布仓库前，确保scripts/constants.py中不包含真实的Hugging Face访问令牌。

其他文档

脚本的详细描述见scripts/README.md。

搜集汇总

数据集介绍

构建方式

GRUFF数据集的构建以德语中丰富的形态性别标记系统为背景，旨在评测大语言模型在代词忠实度任务中的表现。该数据集通过系统化模板组装方式生成，涵盖四种名词一致性系统（阳性、阴性、性别中立的de-e系统和Sternchen系统）以及四组代词（阳性er、阴性sie、新代词en和xier），且覆盖德语四个语法格（主格、宾格、与格、属格）。构建流程包括：选取60个职业与参与者配对，将其翻译为德语；创建各语法格的通用上下文模板和职业特定任务模板；通过模板填充与排列组合，生成超过七百万个独立实例。所有模板经三位标注者独立验证，在600个随机采样实例上达到100%准确率，确保了数据的高质量与一致性。

特点

GRUFF数据集的核心特点在于其对德语语法性别与代词一致性的精细控制与全面覆盖。与传统英语数据集不同，德语通过冠词、名词和代词的多重性别标记提供了更强的语言线索，使得数据集能够更深入地评测模型在无上下文时仅凭语法性别进行代词选择的能力。该数据集引入了两类新代词en和xier，填补了性别包容性语言评估的空白。此外，GRUFF通过引入0至5个非对抗性干扰句，系统评测模型在语篇复杂度增加时的稳健性。实验结果表明，模型对传统代词（er、sie）表现出近乎完美的语法一致性，但对新代词在无显式上下文时几乎无法正确选择，揭示了模型在性别包容性语言处理上的显著不足。干扰句的存在显著降低了所有模型的性能，但编码器模型在德语中比英语中更具稳健性，体现了语法性别标记的积极作用。

使用方法

GRUFF数据集的使用方式聚焦于通过强制选择范式评测语言模型的代词忠实度。具体而言，对于每个任务实例，模型需要从四个代词选项中选出最合适的一个填入任务句中的空缺位置。评测采用平均序列概率作为指标：对解码器模型计算对数似然，对编码器模型使用伪对数似然，最终选择概率最高的选项作为模型输出。该数据集适用于多种模型架构，包括纯编码器（如GBERT、mBERT）和纯解码器（如SauerkrautLM、Llama系列），覆盖德语专用与多语言模型。研究者可通过比较不同干扰句数量（0-5个）下的准确率，量化模型对语篇复杂度的稳健性；通过分析不同代词和语法格下的表现差异，揭示模型在性别包容性与职业刻板印象方面的潜在偏差。数据集代码与数据已开源，供学界复现与扩展研究。

背景与挑战

背景概述

在自然语言处理领域，代词的正确使用不仅是语法规范的体现，更关乎身份认同与性别包容。然而，现有研究多聚焦于英语这一语法性别标记匮乏的语言，忽视了诸如德语等形态丰富语言中代词保真度的评测需求。为此，来自汉堡大学可信AI实验室、海德堡理论研究所等机构的研究人员于近期构建了GRUFF数据集，旨在系统评估大语言模型在德语语境下的代词保真度。该数据集覆盖四种名词一致系统（包括性别中立的De-e与Sternchen变体）及四组代词（含新代词xier与en），横跨德语四个语法格，合计生成超过七百万个独特实例，为多语言公平性研究提供了关键资源。

当前挑战

GRUFF数据集所应对的核心挑战在于突破英语中心主义的局限，深入探讨德语丰富形态标记如何影响代词保真度。其一，在领域问题层面，现有研究多限于英语的简单语境，而德语中冠词、名词与代词的高度一致性虽为模型提供更强语法线索，却也暴露出模型对新代词（如en与xier）几乎为零的默认一致能力，仅当上下文明确指定时方能重现。其二，数据集构建过程中面临形态复杂性挑战：德语所有格模板需同时考虑所有者和所有物的一致变化，远复杂于英语；同时，需确保干扰句的性别设置避免歧义，并在超过七百万实例中通过人工验证确保100%准确率。此外，如何平衡不同名词一致系统与代词组的配对映射，避免因分词冲突（如en与德语常见后缀冲突）导致的性能偏差，亦是关键难点。

常用场景

经典使用场景

GRUFF数据集的核心应用场景在于评估和诊断大型语言模型（LLMs）在德语中对第三人称代词的忠实复现能力（pronoun fidelity）。该场景通过构建包含多种冠词-名词-代词一致性系统（如阳性、阴性、性别中立形式）以及多套代词（包括传统代词和新兴中性代词xier、en）的测试实例，考察模型在不同语法格（主格、宾格、与格、属格）下能否准确复用前文为某一实体指定的代词。经典使用中，研究者会引入0至5个非对抗性干扰句——这些句子谈论其他实体并携带不同代词——以模拟真实话语中的复杂指代环境，从而检验模型在干扰存在下的鲁棒性。这一设计使得GRUFF成为探索语言模型如何在形态丰富的德语中平衡语法一致性与指代推理能力的标准基准。

实际应用

GRUFF数据集的实际应用贯穿于德语自然语言处理系统的开发、部署与公平性审计全流程。在工业界，它可用于评估聊天机器人、自动客服、简历筛选系统等高风险应用中的代词处理能力，避免因误称用户代词（misgendering）而引发的心理伤害与信任危机。例如，在德国公共服务的数字化平台中，系统需要正确处理包含星号（Sternchen）的性别包容性名词及xier等新生代词，GRUFF为这类系统的安全上线提供了可量化的测试工具。在学术研究中，它成为德语语言模型发布时的标准评估套件之一，帮助研究者比较不同架构（编码器仅与解码器仅）、不同规模（从1亿到700亿参数）以及单语与多语模型的代词忠实度差异。此外，该数据集还可用于训练过程中的公平性监控，通过对比模型在不同语法格和代词集上的性能差异，识别并减少质量服务差异（quality-of-service differentials），从而推动更包容的德语NLP技术落地。

衍生相关工作

GRUFF数据集衍生了一系列开创性的后续研究，深刻影响了多语言代词处理与性别包容性NLP领域。其一，它直接启发研究者将代词忠实度评估框架扩展到其他形态丰富语言，如西班牙语（Rodríguez等人，2025）和法语（Jourdan等人，2025），这些工作借鉴GRUFF中干扰句设计与语法格控制的实验范式，发现性别标记的强度与模型偏见程度之间存在非直觉的负相关关系。其二，基于GRUFF揭示的中性代词xier和en的性能鸿沟，后续工作（如Bunzeck & Zarrieß，2024）专门针对德语中性代词的词元化冲突进行了深入分析，提出改进分词策略以提升模型对低频代词的泛化能力。其三，GRUFF中关于跨语法格偏见解耦的发现推动了WinoPron（Gautam等人，2024b）等新基准的构建，后者系统地修正了英文Winogender模式中语法格覆盖不全的问题。此外，该数据集还成为训练链式思维形式推理方法（Gautam，2026）的评估基石，证明了显式的逐步推理能够显著提升代词忠实度，从而将指代推理从简单的模式重复提升至真正的逻辑推理层面。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集