cognitive-biases-in-llms

Name: cognitive-biases-in-llms
Creator: Social Research Computing Group, TUM
Published: 2025-10-31 04:27:04
License: 暂无描述

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/tum-nlp/cognitive-biases-in-llms

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估大型语言模型（LLM）中认知偏见存在与否及其强度的数据集。包含合成的测试案例，这些案例设计用来探测LLM中的认知偏见。

提供机构：

Social Research Computing Group, TUM

创建时间：

2025-10-31

原始信息汇总

数据集概述

基本信息

数据集名称: A Comprehensive Evaluation of Cognitive Biases in LLMs
许可证: Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)
语言: 英语
标签: 决策制定、偏见、大语言模型、基准测试
数据规模: 10K<n<100K

数据集描述

用于评估大语言模型中认知偏见存在程度和强度的表格数据集，包含专门设计的合成测试案例，用于探究LLM在管理决策情境中的认知偏见表现。

关键统计信息

测试的认知偏见数量: 30种
测试案例总数: 30,000个
场景数量: 200个

数据结构

数据集以CSV文件格式提供，每行对应一个认知偏见测试，包含以下列：

列名	描述
`bias`	被测试的认知偏见类型
`scenario`	管理角色和决策环境的简短描述
`control`	测试案例的控制版本提示
`treatment`	测试案例的处理版本提示
`metric_params`	包含计算偏见所需参数的字典

使用方法

测试流程

使用control和treatment提示从LLM获取两个答案（零基索引）
使用提供的metric_params和计算函数计算偏见值

偏见计算函数

python def compute_bias(control_answer: int, treatment_answer: int, metric_params: dict) -> float: delta_control_abs = abs(control_answer - metric_params["x_1"]) delta_treatment_abs = abs(treatment_answer - metric_params["x_2"]) metric_value = metric_params["k"] * (delta_control_abs - delta_treatment_abs) / (max(delta_control_abs, delta_treatment_abs) + 1e-8) return metric_value

重要说明

用途限制: 仅用于LLM评估，不可用于训练或微调
推荐做法: 对每种偏见运行多个测试案例（理想情况下全部1,000个）并平均偏见值
伦理考虑: 测试案例可能包含轻度刻板印象或假设，用户应确保模型在下游应用中的负责任使用

引用信息

如需使用本数据集，请引用相关论文： plaintext @inproceedings{malberg-etal-2025-comprehensive, title = "A Comprehensive Evaluation of Cognitive Biases in {LLM}s", author = "Malberg, Simon and Poletukhin, Roman and Schuster, Carolin and Groh, Georg Groh", booktitle = "Proceedings of the 5th International Conference on Natural Language Processing for Digital Humanities", year = "2025", pages = "578--613" }

相关资源

论文: https://aclanthology.org/2025.nlp4dh-1.50/
代码: https://github.com/simonmalberg/cognitive-biases-in-llms/

搜集汇总

数据集介绍

构建方式

该数据集通过系统化的测试框架构建，聚焦于评估大型语言模型在决策过程中表现出的认知偏差。研究团队设计了200个管理决策场景，每个场景生成5种变体，最终形成30,000个测试案例，覆盖30种与组织行为密切相关的认知偏差。每个测试案例包含控制组与实验组两种提示文本，通过对比模型在两组提示下的选择差异来量化偏差强度。

特点

数据集具有高度结构化的特征，采用CSV格式存储，每行记录包含偏差类型、决策场景描述、控制组与实验组提示文本及度量参数。其核心优势在于通过标准化度量函数实现偏差强度的可计算化，所有测试案例均基于相同的数学框架构建。数据规模覆盖10万条以下的中等体量，确保了评估结果的统计显著性。

使用方法

使用者需分别向待测语言模型输入控制组与实验组提示，获取模型输出的选项索引值。通过内置的偏差计算函数，结合测试案例中的度量参数，即可量化特定认知偏差的强度。建议对每个偏差类型的全部测试案例进行批量评估，通过均值计算获得更可靠的模型偏差水平评估结果。

背景与挑战

背景概述

认知偏差作为人类决策过程中系统偏离理性判断的现象，在心理学与行为经济学领域已有深入研究。由慕尼黑工业大学研究团队于2025年发布的认知偏差评测数据集，开创性地将研究视角延伸至大语言模型领域。该数据集通过构建三万个测试案例，系统评估三十种认知偏差在语言模型中的表现，其核心研究问题聚焦于人工智能系统在管理决策场景中是否再现人类固有的认知偏差模式。这项研究为理解语言模型的决策机制提供了重要基准，对促进可信人工智能发展具有深远影响。

当前挑战

在认知偏差检测领域，该数据集需解决模型决策行为与人类认知偏差的等效性验证难题，包括偏差度量标准的构建与跨场景泛化能力的评估。数据构建过程中面临双重挑战：其一是设计具有生态效度的管理决策场景，需平衡现实性与可控性；其二是确保测试框架的严谨性，通过控制组与实验组的精确对比来分离特定偏差效应，同时避免引入混淆变量干扰测量结果。

常用场景

经典使用场景

在人工智能决策行为研究中，该数据集被广泛应用于评估大语言模型在管理决策情境中的认知偏差表现。通过设计控制组与实验组的对比提示，研究者能够系统测量模型在30种典型认知偏差上的倾向性，为理解人工智能的决策机制提供了标准化测试框架。

解决学术问题

该数据集有效解决了人工智能领域对模型决策透明度的评估难题，通过量化分析模型偏离规范推理的系统性偏差，为认知科学与人机交互研究提供了关键实证依据。其构建的评估体系推动了人工智能对齐研究中关于决策可靠性的理论探索。

衍生相关工作

基于该数据集衍生的研究已拓展至多模态认知评估领域，如将测试框架适配于视觉语言模型。后续工作进一步构建了动态偏差监测系统，并与心理学量表相结合，形成了跨学科的认知计算研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集