JudgeBias-DPO-RefFree

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/iknow-lab/JudgeBias-DPO-RefFree

下载链接

链接失效反馈

官方服务：

资源简介：

JudgeBias-DPO 是一个用于训练 LLM 法官在无参考设置下（无真实配方）评估材料科学合成配方的数据集，旨在消除评估过程中的系统性偏差。数据集针对两种主要偏差进行了优化：表征偏差（对语义等效的表面形式变化的惩罚）和错误不敏感性（未能检测到注入的科学错误）。数据集基于 AlchemyBench 的 2,000 个样本，通过四个法官模型（Qwen3-8B、Qwen3-32B、Llama-3.1-8B-Instruct、gemini-2.5-flash）在 17 个扰动数据集（9 个错误 + 8 个表征）上进行评估。每个样本的锚定评分通过中位数计算得出，确保稳健的质量估计。数据集包含训练集（91,639 对）和验证集（10,183 对），总计 101,879 对，其中错误和表征扰动分别占 58% 和 42%。数据字段包括提示、选择、拒绝、评分、锚定评分、扰动类型等，适用于 TRL DPOTrainer 的对话格式。

创建时间：

2026-03-01

原始信息汇总

JudgeBias-DPO-RefFree 数据集概述

数据集基本信息

名称: JudgeBias-DPO: Reference-Free Judge Debiasing Dataset
语言: 英语 (en)
规模: 100K<n<1M
任务类别: 文本生成 (text-generation)
标签: dpo, preference, llm-as-a-judge, debiasing, materials-science
配置名称: default
数据格式: 兼容 TRL DPOTrainer 对话格式

数据集构建与目的

动机: 用于训练 LLM 法官模型，以在无参考（无真实配方）的设置下，无偏见地评估材料科学合成配方。旨在解决 LLM 作为法官模型时存在的系统性偏见：
- 表征性偏见: 惩罚语义等效的表面形式变化（例如，化学式与 IUPAC 名称）。
- 错误不敏感性: 未能检测注入的科学错误（例如，元素替换、错误温度）。
目标: 训练法官模型对表征变化保持不变，同时对科学错误保持敏感。

数据构建方法

来源: 来自 AlchemyBench 的 2,000 个样本。
评估: 由 4 个法官模型（Qwen3-8B, Qwen3-32B, Llama-3.1-8B-Instruct, gemini-2.5-flash）在 17 个扰动数据集（9 个错误 + 8 个表征性）上进行评估。
锚定分数: 每个样本的稳健质量估计，计算为 median(4 models × 5 representational rates) —— 每个样本最多 20 次评估。
方向感知配对: 对于每个样本的 C(4,2)=6 个模型对：
- 表征性（含义保留）：chosen = 较高分数（更接近锚点），rejected = 较低分数。
- 错误（注入错误）：chosen = 较低分数（检测到错误），rejected = 较高分数（遗漏错误）。
过滤: 分数差异 >= 0.5，基于锚点的质量过滤，每个数据集每个样本最多 5 对，SHA-256 去重。

数据集结构

特征字段

字段名	数据类型	描述
`prompt`	string	`[{system: judge_prompt}, {user: evaluation_request}]` (JSON 字符串)
`chosen`	string	`[{assistant: unbiased_evaluation}]` (JSON 字符串)
`rejected`	string	`[{assistant: biased_evaluation}]` (JSON 字符串)
`score_chosen`	float64	所选回复的总体分数 (1-5)
`score_rejected`	float64	被拒回复的总体分数 (1-5)
`score_delta`	float64	绝对分数差异
`anchor_score`	float64	来自表征共识的每个样本锚点分数
`sample_id`	int64	样本标识符
`perturbation_type`	string	扰动类型
`perturbation_category`	string	扰动类别 (`error` 或 `represent`)
`perturbation_rate`	float64	扰动率
`chosen_model`	string	生成所选回复的模型
`rejected_model`	string	生成被拒回复的模型

数据划分

划分	样本数量	字节大小
训练集 (train)	91,639	525,031,934
验证集 (validation)	10,183	58,266,972

配置文件

配置名称: default
数据文件:
- train: train.parquet
- validation: validation.parquet

数据集统计

指标	值
总配对数量	101,879
训练集 / 验证集	91,639 / 10,183
错误类 / 表征类配对	59,049 (58%) / 42,830 (42%)
唯一样本数	2,000
分数差异 (score_delta)	均值=1.06，中位数=0.9

使用方式

python from datasets import load_dataset dataset = load_dataset("iknow-lab/JudgeBias-DPO-RefFree") train = dataset["train"] val = dataset["validation"]

搜集汇总

数据集介绍

构建方式

在材料科学合成配方评估领域，为消除大语言模型作为评判者时存在的系统性偏差，JudgeBias-DPO-RefFree数据集采用了一种创新的锚定共识构建方法。其数据源来自AlchemyBench的两千个样本，通过四个先进的评判模型在十七种扰动数据集上进行评估，涵盖九类科学错误和八类表征变化。核心构建逻辑在于为每个样本计算一个稳健的锚定分数，该分数基于多个模型在表征变化扰动下的评分中位数。随后，通过方向感知配对机制，针对每对模型在相同样本上的评估结果进行对比：对于保留语义的表征变化，选择更接近锚定分数的高分响应作为偏好答案；对于注入了科学错误的样本，则选择成功检测到错误的低分响应作为偏好答案。经过严格的分数差异阈值过滤、锚定质量筛选以及去重处理，最终形成了高质量且目标明确的偏好对数据。

特点

该数据集的核心特征在于其专注于训练无参考环境下的去偏评判模型，旨在提升模型对科学错误的敏感性，同时保持对等价语义表征变化的鲁棒性。数据集结构清晰，每个样本均包含完整的提示信息、被选中的无偏评估、被拒绝的有偏评估，以及与之对应的详细评分和元数据。其显著特点是包含了明确的扰动类型分类，将样本精准划分为“错误”和“表征”两大类，使得模型训练能够针对性地强化不同能力。数据规模适中，包含超过十万个偏好对，并在误差与表征样本比例上保持了平衡，确保了模型训练的全面性。丰富的元数据字段，如锚定分数和分数差值，为深入分析模型行为与训练过程提供了有力支持。

使用方法

该数据集专为直接偏好优化训练流程设计，其格式与主流的TRL DPOTrainer库完全兼容，便于研究人员快速集成到现有工作流中。使用者可通过Hugging Face的datasets库直接加载数据集，获取训练集与验证集。在具体应用时，需将数据集中的`prompt`、`chosen`和`rejected`字段按照指定的JSON字符串格式解析，并输入至DPO训练器中。数据集中提供的`perturbation_category`字段允许用户根据训练目标灵活筛选特定类型的样本，例如，可专注于提升错误检测能力或增强表征不变性。通过利用该数据集进行训练，能够有效引导大语言模型评判者学习更公正、更科学的评估准则，从而在材料科学合成配方生成等无参考真实答案的场景中做出更可靠的判断。

背景与挑战

背景概述

在人工智能与材料科学的交叉领域，大型语言模型作为评估者（LLM-as-a-Judge）的应用日益广泛，尤其在材料合成配方的自动评估中展现出潜力。然而，现有模型在无参考标准（reference-free）的设定下，常表现出系统性偏见，例如对语义等效但表面形式不同的表述进行不公正惩罚，或对注入的科学错误缺乏敏感度。为应对这一挑战，研究团队于近期构建了JudgeBias-DPO-RefFree数据集，其核心目标在于训练能够抵抗表征偏见、同时保持科学错误检测能力的评估模型。该数据集基于AlchemyBench中的2000个样本，通过多模型共识机制生成锚定分数，并采用定向配对策略构建偏好对，旨在推动材料科学领域文本生成评估的公平性与准确性。

当前挑战

该数据集致力于解决材料科学合成配方评估中的两大核心挑战：一是消除评估模型对语义等效但表述不同的文本（如化学式与IUPAC命名）的偏见，即表征偏见问题；二是提升模型对科学错误（如元素替换、温度错误）的检测能力，即错误不敏感问题。在构建过程中，研究团队面临数据质量控制的复杂性，需通过多模型评估共识计算锚定分数，并设计定向配对逻辑以区分错误与表征扰动。此外，数据去重、分数差异阈值筛选以及大规模扰动类别的平衡处理，均对数据集的可靠性与泛化性提出了较高要求。

常用场景

经典使用场景

在材料科学合成配方评估领域，JudgeBias-DPO-RefFree数据集被广泛应用于训练大型语言模型作为无参考评判者。其经典使用场景涉及通过直接偏好优化方法，使模型学会区分无偏与有偏的评估响应，从而在缺乏真实配方作为基准的条件下，对AI生成的合成配方进行可靠的质量评判。该数据集特别强调模型需对语义等价的表述变化保持鲁棒性，同时对注入的科学错误保持高度敏感，这为构建稳健的自动评估系统提供了关键训练资源。

解决学术问题

该数据集主要致力于解决大型语言模型在充当评判者角色时存在的系统性偏差问题，尤其是表征偏差和错误不敏感性。通过提供基于锚点共识构建的偏好对，它使研究者能够训练模型克服对表面形式变化的过度惩罚，并增强对科学错误的检测能力。这直接推动了无参考评估范式的进步，为在材料科学等专业领域构建更公平、更准确的自动化评估工具奠定了理论基础，并缓解了因缺乏黄金标准答案而带来的评估挑战。

衍生相关工作

围绕该数据集，已衍生出一系列专注于提升专业领域LLM评判者性能的研究工作。这些工作通常探索更高效的偏好对齐算法、针对特定偏差类型的细粒度去偏策略，以及将锚点共识机制扩展到其他科学领域。此外，该数据集的构建方法论，特别是其方向感知配对和基于扰动的数据构造策略，也为后续创建类似的无参考评估数据集提供了可复用的范式，激励了更多关于跨领域模型评估偏差的实证与理论研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集