bluffbench

github2025-10-22 更新2025-11-04 收录

下载链接：

https://github.com/simonpcouch/bluffbench

下载链接

链接失效反馈

官方服务：

资源简介：

bluffbench是一个用于评估语言模型在视觉推理任务中表现的数据集，专门测试模型是否准确描述与预期相矛盾的可视化图表。数据集包含经过秘密修改的数据，产生反直觉的模式（例如显示马力更大的汽车反而更省油），包含11个不同场景的测试样本，每个样本包含输入数据、提示文本和评分标准

BluffBench is a dataset for evaluating the performance of language models on visual reasoning tasks, specifically testing whether models can accurately describe visual charts that contradict prior expectations. It contains covertly modified data that generates counter-intuitive patterns—for example, cars with higher horsepower are shown to be more fuel-efficient. The dataset includes test samples across 11 distinct scenarios, with each sample containing input data, prompt text, and scoring criteria.

创建时间：

2025-10-09

原始信息汇总

bluffbench 数据集概述

数据集简介

bluffbench 是一个用于评估语言模型在数据与预期矛盾时能否准确描述可视化的数据集。该数据集通过秘密修改基础数据来产生反直觉的模式，测试模型是报告实际看到的图表内容还是基于训练数据的预期内容。

技术实现

实现框架：基于 R 语言的 vitals LLM 评估框架
安装方式：作为 R 包提供，可通过 pak::pak("simonpcouch/bluffbench") 安装

数据集结构

数据集包含 11 个样本，每个样本包含以下字段：

id：样本唯一标识符
input：包含设置代码和提示的列表
target：评分标准描述

样本列表

chickweight_time_reversal
chickweight_time_scramble
diamonds_carat_price_reversal
diamonds_color_conditional
diamonds_cut_swap
iris_length_inverted
iris_species_swapped
iris_width_species_conditional
mtcars_am_swapped
mtcars_cyl_swapped
mtcars_hp_inverted

评估流程

数据修改：运行设置代码秘密修改数据
提示生成：模型接收创建 ggplot 图表的提示
图表创建：模型使用 create_ggplot() 工具创建图表
描述输出：模型描述观察到的内容
评分评估：评分模型根据 target 中的指导标准对输出进行评分

评分机制

评分模型：固定使用 ellmer::chat_anthropic(model = "claude-sonnet-4-5-20250929")
评分标准：基于每个样本的 target 字段描述，评估模型是否准确报告了图表中的反直觉模式

使用方式

通过 bluff_task() 函数创建评估任务，使用 $eval() 方法运行评估，传入待测试的求解器聊天函数。

搜集汇总

数据集介绍

构建方式

在可视化分析领域，bluffbench数据集通过精心设计的对抗性数据构建方法，评估语言模型对视觉信息的解读能力。该数据集基于经典数据集如ChickWeight、diamonds和mtcars等，运用数据变异技术秘密修改原始数据分布。具体操作包括数值反转、类别置换和条件变换等数据扰动策略，例如在ChickWeight数据中通过条件语句将特定时间点后的体重数值进行反向处理，从而生成与常识相悖的可视化模式。

特点

该数据集的核心特征在于其对抗性测试框架的设计理念。每个测试样本包含三重数据结构：唯一标识符、包含设置代码和提示词的输入信息、以及明确描述预期观察结果的目标说明。数据集涵盖11种不同的数据变异场景，从简单的数值反转到复杂的条件分布改变，全面检验模型在认知冲突情境下的表现。特别值得注意的是，所有测试案例均采用统一的评估标准，确保评测结果的可比性与科学性。

使用方法

在实际应用层面，研究者可通过R语言环境下的bluffbench包快速部署评估流程。使用流程包括加载内置数据集、创建评估任务对象、配置求解器参数等关键步骤。评估时，模型将接收包含数据变异设置的提示信息，并调用专用工具生成可视化图表，最终由经过统一训练的评分模型根据预设标准进行自动化评估。这种标准化流程设计确保了评估过程的可重复性，为语言模型视觉认知能力的研究提供了可靠的技术支撑。

背景与挑战

背景概述

bluffbench数据集由Simon Couch于2024年基于R语言环境开发，专注于评估语言模型在可视化分析中的认知偏差问题。该数据集通过精心设计的反直觉数据模式，系统检验语言模型对统计图形的描述能力。其核心研究在于揭示预训练知识对模型观察力的干扰机制，为人工智能的可解释性研究提供了重要实验范式。该工作依托vitals评估框架实现，推动了认知科学与机器学习交叉领域的方法论创新。

当前挑战

该数据集致力于解决视觉认知偏差检测的领域挑战，包括模型先验知识与实际观察的冲突消解、反事实推理的准确性验证等关键技术难点。在构建过程中面临数据篡改的隐蔽性设计挑战，需确保修改后的统计图形既违背常识又保持视觉合理性。同时，评估标准的量化体系构建涉及多维度评分机制，需平衡自动化评估与人工验证的协同关系。

常用场景

经典使用场景

在人工智能可信度评估领域，bluffbench数据集通过精心设计的反直觉可视化任务，为语言模型提供了一种独特的测试环境。该数据集要求模型使用ggplot工具创建图表并描述观察结果，而底层数据已被秘密修改以产生与常识相悖的模式。这种设置能够有效检验模型是如实报告可视化内容，还是基于训练数据中的先验知识做出错误推断。

实际应用

在实际应用层面，bluffbench为各类依赖视觉数据分析的智能系统提供了关键的验证工具。在商业智能分析、科学数据解读和决策支持系统中，该数据集能够帮助开发者识别和修正模型的数据解释偏差。通过确保模型能够准确描述实际观察到的数据模式，显著提升了智能系统在真实场景中的实用价值和可靠性。

衍生相关工作

基于bluffbench的研究范式，学术界衍生出多个重要的相关研究方向。vitals评估框架的进一步完善为类似测试提供了标准化工具，而针对不同领域数据的反直觉测试案例也在不断扩展。这些工作共同推动了语言模型可信度评估的深度和广度，为构建更透明、可解释的人工智能系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集