BiasBeware

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/marialymperaiou/BiasBeware

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含使用认知偏见重新表述的产品描述的数据集。现代推荐系统不仅处理产品，还处理说服。BiasBeware调查了微妙的语言线索如何影响LLM驱动的推荐，并挑战模型以检测、解释和消除这些影响。

A dataset consisting of product descriptions rephrased using cognitive biases. Modern recommendation systems not only handle products but also engage in persuasion. BiasBeware investigates how subtle linguistic cues influence LLM-driven recommendations, and challenges models to detect, explain, and eliminate these effects.

创建时间：

2026-04-05

原始信息汇总

BiasBeware 数据集概述

数据集简介

BiasBeware 是一个包含产品描述的数据集，这些描述已通过使用认知偏见进行改写。该数据集旨在研究微妙的语言线索如何影响大语言模型驱动的推荐系统，并挑战模型去检测、解释和消除这些影响。

数据构建与标注流程

数据构建采用一个结合自动生成和人工验证的两阶段标注流程。

1. 产品描述中立化

起点：原始的亚马逊产品描述。
目标：将其转化为中立的、以功能为中心的描述。
方法：
- 使用大语言模型自动重写。
- 人工验证以确保：
  - 移除说服性线索。
  - 保留事实性产品属性。
结果：生成无偏见的参考集。

2. 偏见注入

从每个中立描述出发，通过引入与特定认知偏见相对应的最小语言线索，生成一个或多个偏见注入变体。

考虑的偏见分类包括：

社会认同
稀缺性
排他性
权威性
对比效应
叙事性
面额忽视
身份信号
诱饵效应
折扣框架

每个操作都设计为最小化且局部化，确保基础产品内容保持不变，同时引入有针对性的说服信号。

3. 人工标注

每个描述由四名独立的标注员进行标注。
标注员需要从预定义的分类中识别文本中存在的主要偏见类别，或者在没有明确说服信号时标记为 no_bias。
标注在描述层面进行，每个项目一个标签。

4. 一致性与质量控制

为确保标注质量，使用以下指标衡量标注者间一致性：

Fleiss’ κ
Krippendorff’s α

通过以下方式解决分歧：

多数投票。
对模糊或边界案例进行人工裁决。

5. 最终数据集结构

数据集中的每个实例包含：

一个中立（无偏见）描述。
一个或多个偏见注入变体。
一个偏见标签。
可选的元数据。

数据集应用任务

该结构化设置支持对所有子任务进行受控评估。

子任务 B：防御攻击

目标：在描述可能被认知偏见线索攻击的推荐场景中，维持公平的推荐。
评估指标：通过平均排名位移 avg|Δ| 进行评估，值越低越好。
辅助评估量：出现率变化（百分点）和平均位置变化（排名位置）。

子任务 C：净化受攻击的产品描述

目标：重写被认知偏见线索攻击的产品描述，以移除操纵信号，同时保持事实性产品内容不变。
评估维度：
1. 下游去偏见成功度：使用平均排名位移 avg|Δ| 衡量。
2. 对干净参考的分布忠实度：使用净化集与原始干净集的令牌分布之间的KL散度和Jensen-Shannon散度衡量。

相关论文

标题：Bias Beware: The Impact of Cognitive Biases on LLM-Driven Product Recommendations
作者：Giorgos Filandrianos, Angeliki Dimitriou, Maria Lymperaiou, Konstantinos Thomas, Giorgos Stamou
出处：Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
页面：22397–22426
链接：https://aclanthology.org/2025.emnlp-main.1140/

搜集汇总

数据集介绍

构建方式

在推荐系统与认知科学交叉领域，BiasBeware数据集通过严谨的两阶段标注流程构建而成。该流程首先对原始亚马逊产品描述进行去偏处理，利用大型语言模型自动重写并辅以人工验证，生成仅保留产品事实特征的中性描述作为基准。随后，基于一套涵盖社会认同、稀缺性、权威性等十类认知偏见的分类体系，在中性描述中注入最小化的语言暗示以生成偏见变体。每个描述均由四名独立标注员进行偏见类别标注，并通过Fleiss' κ与Krippendorff's α系数确保标注一致性，最终形成包含中性描述、偏见变体及对应标签的结构化数据。

使用方法

BiasBeware数据集主要应用于评估语言模型对认知偏见的识别、防御与净化能力。在偏见归因任务中，系统需从产品描述中检测并分类所嵌入的认知偏见类型。防御任务要求模型在面临带有偏见暗示的竞争性产品描述时，能够维持原始推荐排序的公平性，减少因语言操纵导致的排名偏移。净化任务则更具挑战性，系统需要在去除描述中操纵性语言线索的同时，完整保留产品的客观事实信息，使文本分布回归至中性基准。数据集通过平均排名位移、KL散度等量化指标，为这些任务的性能评估提供了标准化框架。

背景与挑战

背景概述

在推荐系统与自然语言处理交叉领域，认知偏差如何通过语言影响决策已成为前沿议题。BiasBeware数据集由Giorgos Filandrianos等研究人员于2025年构建，并发表于EMNLP会议，旨在系统探究产品描述中微妙语言线索对大型语言模型驱动推荐的影响。该数据集通过严谨的两阶段标注流程，将原始亚马逊产品描述转化为中性版本，并注入社交证明、稀缺性、权威性等十类认知偏差，从而构建一个可控的基准测试平台。其核心研究问题聚焦于模型如何检测、解释并消除语言中的说服性信号，以促进推荐系统的公平性与鲁棒性，为认知偏差在计算语言学中的量化研究提供了重要基础设施。

当前挑战

该数据集致力于解决推荐系统中语言操纵引发的公平性挑战，即模型如何抵御产品描述内嵌的认知偏差，以维持原始排序的完整性。构建过程中的首要挑战在于平衡偏差注入的显著性与最小侵入性，确保语言线索明确可识别，同时不扭曲产品事实属性。其次，标注流程需保证跨注释者的一致性，通过Fleiss' κ与Krippendorff's α等指标验证标签可靠性，并处理边界案例的裁决。此外，数据结构的构建需支持多任务评估，包括偏差归因、防御与净化，这要求中性参考集与偏差变体在内容上严格对齐，为后续实验提供可控对比基础。

常用场景

经典使用场景

在自然语言处理与推荐系统交叉领域，BiasBeware数据集为探究认知偏见如何通过语言微妙影响大语言模型决策提供了基准平台。该数据集通过精心设计的标注流程，将亚马逊产品描述转化为中性版本，并注入社交证明、稀缺性、权威性等十类认知偏见信号，构建了包含原始描述、偏见变体及对应标签的结构化语料。研究者可借此系统评估大语言模型在商品推荐场景中对偏见语言的敏感度、鲁棒性与去偏见能力，为认知偏见在算法中的传播机制研究奠定数据基础。

解决学术问题

该数据集有效解决了推荐系统与计算语言学中的若干核心问题：其一，它量化了语言层面认知偏见对大语言模型推荐结果的扰动程度，为偏见检测与归因提供了可复现的实验框架；其二，通过设计防御与净化子任务，推动了模型在对抗性语言环境下的鲁棒性研究，促进公平推荐算法的发展；其三，数据集的结构化标注为可解释人工智能提供了新视角，帮助学者理解模型如何响应不同类别的说服性信号，从而在算法治理与伦理对齐领域产生深远影响。

实际应用

在实际应用层面，BiasBeware数据集为电子商务平台、内容审核系统与广告推荐引擎提供了关键的技术验证工具。平台可基于该数据训练模型识别并过滤商品描述中的隐性操纵语言，提升推荐结果的客观性与用户信任度；内容审核系统可借鉴其偏见分类体系，监测营销文本中的不当诱导策略；同时，该数据集也为政策制定者与行业标准组织提供了评估算法公平性的参考基准，助力构建更透明、负责任的数字化消费环境。

数据集最近研究