Social Attribution Benchmark

github2026-04-21 更新2026-04-30 收录

下载链接：

https://github.com/Yuzhaoxin946/SAB-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于小插曲的基准数据集，用于研究社会归因——将外部事件归因于代理人社会行为的原因和理由，并在社会互动中为涉及的代理人分配责任或责备的推理过程。

An episode-based benchmark dataset designed for the study of social attribution, which refers to the reasoning process of ascribing external events to the causes and rationales of agents' social behaviors and assigning responsibility or blame to the agents involved in social interactions.

创建时间：

2026-04-21

原始信息汇总

数据集概述：Social Attribution Benchmark (SAB-Bench)

Social Attribution Benchmark 是一个基于小场景（vignette）的基准数据集，旨在研究社会归因（social attribution）——即将外部事件归因于个体社会行为的原因，并判断其责任（responsibility）或责备（blame）的推理过程。

核心特性

理论基础：基于经典归因理论，包含五个可分解的归因维度：意图（Intention）、自愿性（Voluntariness）、预知性（Foreknowledge）、可控性（Controllability）、义务（Obligation）。
标注任务：
- 责任（responsibility） 判断
- 责备（blame） 判断
- 两者均采用四等级标注：no（无）、low（低）、medium（中）、high（高）。

数据规模与语言

总样本数：4,850 条双语（中文 + 英文）测试样本，其中：
- 责备任务（blame）：2,370 条（英文 1,185 + 中文 1,185）
- 责任任务（responsibility）：2,480 条（英文 1,240 + 中文 1,240）
语言：英文（en）和中文（zh）

场景与关系类别

数据集涵盖 3 种交互关系类别 和 11 种真实世界场景主题：

关系类别	场景主题	每场景主体数
一般场景（General Scenarios）	交通事故、食物过敏、公司场景、溺水事件、实验室场景	3
替代责备场景（Vicarious Blame Scenarios）	公司场景、实验室场景、家庭场景	2
命令链场景（Commanding Chain Scenarios）	公司场景、枪手场景、军事打击	3

数据字段

每条样本包含以下字段：

字段名	类型	描述
`id`	string	UUID 唯一标识符
`lang`	string	语言代码：`en` 或 `zh`
`scenario`	string	故事背景及主体特定细节
`agent`	string	待评估的目标主体
`justification`	string	金标签：`no`、`low`、`medium`、`high`
`dim_intention`	int 或 null	意图维度（0/1/null）
`dim_voluntariness`	int 或 null	自愿性维度（0/1/null）
`dim_foreknowledge`	int 或 null	预知性维度（0/1/null）
`dim_controllability`	int 或 null	可控性维度（0/1/null）
`dim_obligation`	int 或 null	义务维度（0/1/null）

归因维度中：0 = 否，1 = 是，null = 不适用（根据场景结构）。

数据构建方法

典型场景设计：基于经典社会责任归因研究，为每个场景预先固定主体关系及部分归因维度值。
维度修改：系统化改变剩余归因维度变量的值，生成多个数据实例。
防泄露多样化：通过语义多样化、随机化标识符、非字面提示措辞，防止模型利用表面词法线索。
人类标注：由两位心理学专家独立标注责任和责备标签，仅保留一致性高的样本（责任任务：Kappa = 89.71%；责备任务：Kappa = 84.93%）。
双语构建：先对中文版本进行标注，再经翻译专家审核翻译为英文。

许可协议

采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。

搜集汇总

数据集介绍

构建方式

Social Attribution Benchmark的构建遵循社会科学中经典的情境实验法，通过系统操控归因维度来生成控制性社会叙事。首先，基于社会心理学中责任与责备归因的理论框架，设计了三类主体间关系（一般情境、替代责备情境、命令链情境）和十一个真实世界场景主题。每个规范场景中，部分归因维度值由场景结构先验固定，其余维度则通过系统变化生成多个数据实例。每个实例包含故事背景和主体层面的人物细节，并针对每个归因维度标注二元标签。为规避模型利用表层词汇伪影，采取了语义多样化、随机化标识符和非字面揭示性措辞等防泄漏措施。最终，由两位心理学专家独立对责任与责备进行四级标注，仅保留一致性高的样本，并经翻译构成双语基准。

特点

该数据集的核心特点在于其精细的多维归因标注体系与理论驱动的结构化设计。数据涵盖意图、自愿性、预知性、可控性和义务五个经典归因维度，每个维度均以二元值或空值标注，使得对责任与责备判断的认知机制可被解构分析。数据集包含4,850个中英双语测试样本，覆盖三种主体间关系类型和十一个场景主题，具备跨语言、跨关系的比较分析能力。所有标注由专家完成，一致性指标（Cohen's κ达84.93%以上）极高，确保了标注质量的可靠性。此外，通过防泄漏设计，数据集能有效评估模型对社会归因推理的真实理解能力而非表层模式匹配。

使用方法

数据集通过Hugging Face Datasets库提供便捷的加载接口，支持三种配置：blame（责备任务，2,370条）、responsibility（责任任务，2,480条）以及default（合并所有任务）。用户可使用load_dataset函数按需加载，例如加载责备任务全部语言版本，或通过filter方法筛选特定语言的样本。每条数据包含唯一标识符、语种、场景描述、待评估主体、金标准标签及五个归因维度值。该基准适用于研究归因维度对判断的影响、不同主体间关系的对比分析，以及跨语言社会归因推理的评估。建议用于科学研究的评估而非实际决策，且需注意其标注源自专家视角，具有特定文化理论背景。

背景与挑战

背景概述

社会归因（Social Attribution）作为社会智能的核心，深刻影响着社会模拟、人机交互与社会学习等领域。然而，现有计算科学领域缺乏专门针对责任与责备归因的精细化基准。为填补这一空白，由心理学与人工智能交叉团队于2024年创建的Social Attribution Benchmark（SAB），基于经典归因理论精心设计了包含意图、自愿性、预知、可控性与义务等五个归因维度的社会场景库。该基准涵盖11类现实主题与3种主体间关系（一般场景、替代性责备场景与命令链场景），包含4,850个中英双语标注样本，为系统研究社会归因推理提供了可控且富有理论根基的评测平台，在推动社会推理评估标准化方面具有重要开创性贡献。

当前挑战

社会归因推理面临两大核心挑战。其一，归因判断的多维度交织特性使得模型需同时整合五个归因维度（如意图与可控性）的复杂交互，并准确区分不同主体间关系类型（一般、替代性责备、命令链）对判断的影响，这对现有自然语言理解模型的符号推理与因果推断能力构成严峻考验。其二，数据集构建过程中需克服场景信息泄露风险，通过语义多样化、随机标识符与非直白表述等技术手段防止模型利用表层模式而非真实归因结构进行预测；同时，跨语言对齐（中英双语）需在保持归因维度含义不变的前提下实现语义忠实的翻译，而人类标注者间的高度一致性（加权卡帕系数>0.95）对标注质量也提出了严苛要求。

常用场景

经典使用场景

在社会智能与认知科学交汇的学术前沿，Social Attribution Benchmark为探究人类归因机制的计算模型提供了标准化的测试平台。该数据集最经典的使用场景是评估机器系统在复杂社会情境中分配责任与责备的推理能力，通过精心设计的4,850个双语（中英）场景片段，系统操纵意图、自愿性、预知性、可控性和义务性五个归因维度，使研究者能够精确测量模型对多维度社会信息的整合与判断能力。数据集覆盖一般关系、替代责备和指挥链条三类人际互动类型，以及交通事故、家庭关系、军事行动等11个现实主题，为细粒度归因推理研究构建了前所未有的实验框架。

实际应用

在实际应用层面，Social Attribution Benchmark为构建具备社会感知能力的人机交互系统提供了关键支撑。例如，在自动驾驶汽车的事故责任判断场景中，该数据集可帮助算法学习区分有意操作与外部强制下的行为差异，从而做出更符合社会规范的决策。在内容审核与社交媒体管理领域，归因推理能力有助于系统区分恶意攻击与无意过失，提升责任归属的准确性。此外，在智能教育辅导系统中，该数据集可辅助模型理解师生互动中的替代责任关系，优化对教学情境中因果判断的响应。这些应用均依赖于对意图、义务和可控性等维度的精准建模。

衍生相关工作

Social Attribution Benchmark的发布催生了一系列围绕社会归因推理的研究工作。经典工作包括基于该数据集开发的可解释归因模型，通过注意力机制可视化五个归因维度对最终判断的贡献权重；跨文化比较研究利用其双语特性揭示中英文社会规范表达的差异对归因判断的影响；以及多任务学习框架，将责任与责备预测任务与维度分类任务联合训练以增强表示学习。此外，研究者还将其与大语言模型的推理链提示工程结合，探索思维链提示是否能在低资源情境下提升归因准确率。这些衍生工作共同推动了社会智能评估从简单分类向多维推理演进的学术潮流。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集