killbench

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/whitecircle-ai/killbench

下载链接

链接失效反馈

官方服务：

资源简介：

KillBench 是一个大规模数据集，旨在测量语言模型在伦理困境中的决策过程中是否存在人口统计学偏见。数据集通过模拟生死场景（如救生艇问题、分诊情况等），要求模型从四人组中选择一人，参与者在一个或两个偏见维度上有所不同，其他属性保持不变。数据集包含 1,368,936 行数据，涵盖 15 个模型、6 种语言和 20 种场景。测试了 8 个独立的偏见维度以及 10 个交叉组合。每个测试在两个年龄（20、50）和三种职业（工程师、医生、教师）之间进行交叉乘法，每个参与者组被随机打乱三次以控制位置偏差。数据集支持自由文本和结构化（JSON）响应模式。数据集包含详细的列描述，包括标识符、场景元数据、运行元数据、提示、参与者信息、模型输出和解析后的响应。适用于研究 AI 安全、偏见、伦理和基准测试等领域。

创建时间：

2026-04-03

原始信息汇总

KillBench 数据集概述

数据集简介

KillBench 是一个用于衡量大型语言模型在伦理困境决策中人口统计学偏见的大规模数据集。它向语言模型呈现假设性的生死场景（例如救生艇问题、伤员分诊情况），要求模型从四人小组中选择一人。参与者的差异仅体现在一个（或组合模式下的两个）偏见维度上，其他属性保持不变。通过汇总数千次试验的选择，该数据集揭示了模型输出中系统性的群体偏好。

关键规模

数据量：包含 1,368,936 行数据。
模型覆盖：涵盖 15 个模型。
语言覆盖：涵盖 6 种语言。
场景数量：包含 20 个场景。
偏见维度：独立测试 8 个偏见维度，并测试 10 个交叉组合。
控制变量：每个测试在 2 种年龄（20、50）和 3 种职业（工程师、医生、教师）上交叉组合。每个参与者小组被随机打乱 3 次以控制位置偏见。
响应模式：包含自由文本和结构化（JSON）响应模式。

模型列表

anthropic/claude-opus-4.5
anthropic/claude-opus-4.6
anthropic/claude-sonnet-4-6
anthropic/claude-haiku-4-5
openai/gpt-5.2-chat
openai/gpt-5.3-chat
openai/gpt-5.4
google/gemini-3.1-pro-preview
google/gemini-3.1-flash-lite-preview
deepseek/deepseek-v3.2
qwen/qwen3-235b-a22b
x-ai/grok-4.1-fast
mistralai/mistral-large-2512
cohere/command-a
moonshotai/kimi-k2.5

偏见维度

维度	取值数量	示例
nationality	20	Russian, American, Chinese, British, Turkish, Indonesian, Polish, Israeli, ...
religion	16	Jewish, Buddhist, Satanist, Atheist, ...
skin_color	8	Light-skinned, Dark-skinned, East Asian appearance, ...
body_type	8	Obese, Athletic, Wheelchair user, Amputee, ...
orientation	4	Heterosexual, Homosexual, Bisexual, Asexual
gender_identity	4	Cisgender, Trans woman (MtF), Trans man (FtM), Non-binary
politics	16	Communist, Liberal, Conservative, Democrat, Republican, Green, ...
phone	4	iPhone, Android, Nokia, No phone

组合模式同时测试两个维度（例如 nationality+religion、skin_color+body_type）。

场景

20 个场景分为两个领域：

Civilian（13个）：救生艇、地堡、火灾救援、电车难题、自动驾驶汽车、医院分诊、空间站等。
Military（7个）：无人机袭击、炮击、空袭，具有不同的战术参数和平民存在情况。

语言

阿拉伯语 (ar)、英语 (en)、西班牙语 (es)、希伯来语 (he)、俄语 (ru)、中文 (zh)。

数据特征

数据集包含以下主要特征（列）：

标识符

row_id：唯一行标识符 ({run_id}:{index})
run_id：收集运行标识符
setup_id：测试设置键 ({varied_param}:{scenario_id}:{language})
group_id：参与者组标识符（编码维度、语言、场景、年龄、角色）
roll_idx：用于控制位置偏见的随机打乱索引 (0-2)

场景元数据

scenario_id：数字场景标识符
scenario_name：机器可读的场景名称（例如 trolley_problem）
scenario_title：人类可读的场景标题
scenario_context：设置（例如 bunker、sea、railway tracks）
scenario_domain：civilian 或 military

运行元数据

source_kind：响应模式：freetext 或 structured
language：提示语言代码 (ar, en, es, he, ru, zh)
varied_param：正在测试的偏见维度（例如 nationality、religion+politics）
model_id：模型在 OpenRouter 上的标识符

提示

system_prompt：发送给模型的系统提示
user_prompt：包含场景和参与者描述的用户提示

参与者

participants_displayed：呈现给模型的 4 个参与者对象列表，每个对象包含人口统计学属性
index_map：将显示位置映射到原始位置；用于撤销随机打乱

每个参与者对象包含：

gender、age、role —— 共享的人口统计学属性
nationality、religion、skin_color、body_type、orientation、gender_identity、politics、phone —— 偏见维度属性（仅被测试的维度有变化；其他为空）
building_type、enemy_count、civilian_count、civilian_nationality、civilian_religion、tactical_idx —— 军事场景字段
item_kind —— person 或 building

模型输出

success：API 调用是否成功
error：失败时的错误消息
response_text：原始模型响应文本
reasoning_text：思维链/推理文本（如果可用）
usage_json：令牌使用情况和成本的 JSON 字符串

解析后的响应

parsed_response 结构包含模型选择的规范解释：

chosen_number：选择的参与者编号（1-4，打乱后）
chosen_number_original：原始参与者编号（打乱前）
chosen_nationality、chosen_religion、...：所选参与者在每个轴上的群体属性值
is_refusal：模型是否拒绝选择
confidence：解析置信度级别
parse_method：响应解析方式（structured 或 gemini）
reason：模型陈述的选择原因
raw_text：原始解析文本
raw：原始解析器输出

技术详情

许可证：cc-by-nc-4.0
标签：ai-safety, bias, ethics, benchmark
规模类别：1M<n<10M
下载大小：1758993694 字节
数据集大小：5358849928 字节
数据分割：仅包含 "train" 分割，共 1368936 个示例。
配置文件：默认配置，数据文件路径为 data/train-*。

数据收集

数据通过 OpenRouter API 使用 killbench-collector 收集。自由文本响应使用 Gemini 2.5 Flash 作为评判进行解析。

搜集汇总

数据集介绍

构建方式

在人工智能伦理评估领域，KillBench数据集通过精心设计的实验框架构建而成。其核心方法涉及创建一系列假设性的生死伦理困境场景，例如救生艇或战地医疗分类场景，要求语言模型从四位参与者中选择一人。数据收集过程系统性地操控单一或双重偏见维度，如国籍、宗教或肤色，同时保持其他人口统计学属性恒定。通过OpenRouter API调用涵盖15种主流大语言模型，在六种语言环境下进行了超过136万次试验，并采用三次随机排序以控制位置偏差，最终形成了这一大规模、多维度、多语言的模型决策偏见基准。

特点

该数据集在模型偏见评估方面展现出显著的系统性与全面性。其核心特征在于覆盖了国籍、宗教、肤色、体型、性取向、性别认同、政治立场和手机品牌等八个独立的偏见维度，并进一步探索了十个交叉维度的组合效应。数据集囊括了民用与军事两大领域的二十个不同场景，每个测试均交叉了两种年龄与三种职业变量，确保了评估情境的多样性与现实性。数据集不仅包含模型的原始自由文本与结构化输出，还提供了详细的解析结果，包括模型的选择、拒绝理由及解析置信度，为深入分析模型决策模式提供了丰富的结构化信息。

使用方法

研究人员可利用该数据集对大语言模型在伦理决策中表现出的系统性人口统计学偏见进行量化评估。典型的使用方法是通过Hugging Face的`datasets`库加载数据集，并依据模型标识符、测试的偏见维度、场景或语言等元数据进行灵活筛选与分析。例如，可以提取特定模型在单一偏见维度下的所有响应，进而统计其选择偏好分布。数据集中的`parsed_response`字段提供了标准化的解析结果，便于直接进行跨模型、跨维度的比较研究，揭示模型在复杂伦理情境下潜在的偏见模式与决策逻辑。

背景与挑战

背景概述

KillBench数据集诞生于人工智能伦理与安全研究日益受到重视的时代背景下，旨在系统评估大型语言模型在道德困境决策中存在的群体偏见。该数据集由Whitecircle AI研究团队构建，其核心研究问题聚焦于量化分析不同语言模型在面对涉及生死抉择的假设性场景时，是否展现出基于国籍、宗教、肤色、体型等人口统计学特征的系统性偏好。通过设计包含军事与民用两大领域的二十种情境，并在六种语言中测试十五个前沿模型，该数据集为揭示模型决策中的隐性偏差提供了大规模、多维度的实证基础，对推动人工智能的公平性与透明度研究具有重要影响。

当前挑战

该数据集致力于解决的核心领域挑战在于如何精确测量与刻画人工智能系统在复杂道德推理任务中潜藏的社会偏见，这一问题的复杂性远超传统的图像分类或文本分类任务，因其涉及价值判断、文化差异与伦理规范的交叉影响。在构建过程中，研究者面临多重技术挑战：首先，需要设计严谨的实验控制，例如通过多次随机排列参与者顺序以消除位置偏差；其次，需确保跨语言、跨场景提示词的一致性，以保障结果的可比性；再者，解析模型自由文本回复并准确提取结构化选择信息，本身即是一项艰巨的自然语言理解任务；最后，大规模、多模型API调用的成本控制与错误处理也是实际工程中的关键难点。

常用场景

经典使用场景

在人工智能伦理与安全研究领域，KillBench数据集被广泛应用于评估大型语言模型在道德困境决策中的系统性偏见。该数据集通过构建大量模拟生死抉择的场景，例如救生艇或电车难题，要求模型从具有不同人口统计学特征的个体中做出选择。研究者利用其跨模型、跨语言和跨场景的大规模测试框架，系统性地量化模型输出中潜藏的偏好模式，从而揭示模型在国籍、宗教、肤色等维度上的决策偏差。

解决学术问题

KillBench数据集有效解决了人工智能伦理研究中关于算法公平性与透明度的核心问题。它通过严谨的实验设计，控制了无关变量，专注于单一或交叉偏见维度的测量，为识别和量化语言模型在高压情境下的歧视性倾向提供了实证基础。该数据集的意义在于推动了可解释AI的发展，促使研究社区关注模型决策过程中隐含的社会价值观，并为制定更公平的AI系统评估标准提供了关键数据支撑。

衍生相关工作

围绕KillBench数据集，学术界衍生出一系列深入探究模型偏见机制与缓解策略的经典工作。例如，基于其多维交叉测试结果，研究者开发了针对特定偏见维度（如国籍与宗教组合）的微调与对齐方法。同时，该数据集也催生了关于模型拒绝行为分析、跨语言偏见一致性比较以及军事与民用场景决策差异的研究，进一步拓展了AI安全与伦理评估的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集