GUIDEBENCH

Name: GUIDEBENCH
Creator: 上海交通大学计算机科学与工程学院, 字节跳动
Published: 2025-05-16 23:32:23
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.11368v1

下载链接

链接失效反馈

官方服务：

资源简介：

GUIDEBENCH是一个用于评估大型语言模型（LLM）遵循特定领域指南的能力的综合基准。该数据集包含1272个实例，跨越7个不同类别，包括审计算法、价格匹配、文本相关性、数学、代理聊天、摘要和幻觉检测。GUIDEBENCH旨在评估LLM在三个关键方面的表现：遵守多样规则、对规则更新的鲁棒性和与人类偏好的匹配。数据集的创建过程包括从可靠的领域来源收集初始数据，使用场景模拟模板和多响应生成指南，以及通过基准模型验证和专家评审进行最终质量验证。该数据集旨在作为诊断工具，以识别LLM在面对不断发展的运营标准时的弱点，为提高LLM的鲁棒性提供有价值的见解。

GUIDEBENCH is a comprehensive benchmark for evaluating the ability of Large Language Models (LLMs) to follow domain-specific guidelines. This dataset comprises 1,272 instances spanning seven distinct categories, including auditing algorithms, price matching, text relevance, mathematics, agent chat, summarization, and hallucination detection. GUIDEBENCH aims to evaluate LLMs' performance across three critical dimensions: adherence to diverse rules, robustness to rule updates, and alignment with human preferences. The dataset creation process involves collecting initial data from reliable domain sources, using scenario simulation templates and multi-response generation guidelines, as well as conducting final quality validation via benchmark model verification and expert reviews. This dataset is intended to serve as a diagnostic tool to identify weaknesses of LLMs when faced with evolving operational standards, providing valuable insights for improving LLM robustness.

提供机构：

上海交通大学计算机科学与工程学院, 字节跳动

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

GUIDEBENCH数据集的构建采用了多阶段流程，首先从实际应用场景中收集种子指令，通过领域知识扩展生成多样化规则。采用自动合成与人工校验相结合的方式，确保规则的逻辑一致性和实用性。具体包括数据收集、规则生成、规则组合及多响应生成四个核心阶段，最终形成涵盖7大类别、1272个任务的综合评估体系。每个任务包含指令、准则、上下文和多项选择四个组件，通过GPT-4o进行冗余规则过滤，并由领域专家进行质量验证。

特点

该数据集具有三大核心特征：其一，聚焦领域导向准则，包含537条涵盖审计算法、价格匹配等场景的规则，模拟现实场景中频繁更新的行业标准；其二，采用动态评估框架，通过修改规则生成不同版本任务，测试模型对准则更新的鲁棒性；其三，创新性融合多项选择与问答两种评估形式，其中数学任务特别设计优惠券组合计算等复杂场景，要求模型在商业逻辑与数学推理间取得平衡。数据分布显示，文本相关性和代理聊天任务占比最高（34.7%和17.7%），数学任务则设置最多规则冲突案例。

使用方法

使用GUIDEBENCH时需遵循标准化流程：首先加载任务模板（I,G,C,M）或（I,G,C）结构，将准则作为外部知识输入模型。评估分为两阶段，先要求模型生成基于准则的分析，再输出最终答案。采用零样本思维链提示技术提升推理透明度，结果通过GPT-4o统一解析为JSON格式以确保评估一致性。重点考察三个维度：准则遵循准确率（匹配人工标注答案）、规则更新鲁棒性（相同输入不同准则的输出一致性）以及人类偏好对齐度（专家对多选项的评分）。数学等复杂任务建议启用思维链分析，而文本摘要等简单任务可直接评估输出结果。

背景与挑战

背景概述

GUIDEBENCH是由上海交通大学与字节跳动的研究团队于2025年提出的领域导向指南遵循能力评测基准，旨在解决大语言模型在专业领域应用中面临的规则遵循挑战。该数据集聚焦7个典型场景（如审计算法、价格匹配、数学推理等），包含1272个任务实例，通过自动合成与人机协同构建方式，首次系统化评估模型在领域规则多样性、规则更新鲁棒性及人类偏好对齐三个维度的表现。其创新性在于突破了传统评测仅关注通用常识的局限，为LLM在医疗、金融等专业领域的可靠部署提供了重要评估工具。

当前挑战

GUIDEBENCH面临双重挑战：在领域问题层面，需解决LLM对专业规则的理解偏差（如法律术语精确性要求）、动态规则适应性（如政策频繁更新导致的逻辑冲突）以及与常识知识的矛盾处理（如'零糖'与'无糖'的法律定义差异）；在构建层面，需克服规则体系的复杂性建模（如复合条件与嵌套关系）、多模态评估标准制定（如数值计算与语义一致性的平衡）以及跨文化语言适应性（当前仅支持中文的局限性）。实验表明，即便最优模型在数学任务中的准确率仅65.38%，揭示出现有模型处理领域约束时存在显著能力缺口。

常用场景

经典使用场景

GUIDEBENCH数据集在评估大型语言模型（LLMs）遵循领域导向指南的能力方面具有经典应用场景。该数据集通过模拟真实世界中的复杂规则和频繁更新的指南，为研究者提供了一个标准化的测试平台，特别适用于审计算法、价格匹配、文本相关性、数学推理、代理聊天、摘要生成和幻觉检测等七大类任务。

解决学术问题

GUIDEBENCH解决了当前LLMs在遵循领域特定指南时面临的三大核心学术问题：规则多样性、规则更新的鲁棒性以及与人类偏好的对齐。通过系统化的评估框架，该数据集揭示了LLMs在数学任务等领域中的显著不足，为模型优化提供了明确方向，填补了领域导向评估基准的空白。

衍生相关工作

该数据集推动了多个衍生研究方向，包括基于规则蒸馏的模型优化（如R1-Distill-Qwen系列）、领域自适应推理技术（如Deepseek-R1的数学能力增强），以及针对指南冲突的解决方案研究。相关成果进一步催生了如RuleBench、ComplexBench等专注于复杂指令遵循的评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集