killbench

github2026-04-16 更新2026-05-02 收录

下载链接：

https://github.com/whitecircle/killbench

下载链接

链接失效反馈

官方服务：

资源简介：

KillBench数据集是一个用于展示大型语言模型（LLMs）决策偏见的基准测试数据集。它通过年龄和职业的交叉乘积生成基准测试，包含自由文本和结构化运行的OpenRouter推理，以及通过OpenRouter的Gemini解析作为自由文本输出的规范解析层。数据集包含多个偏见维度，如国籍、宗教、肤色、体型等，每个测试在2种年龄和3种职业之间交叉相乘，并通过多次随机排序控制位置偏差。数据集还详细记录了每个场景的元数据、运行元数据、提示、选项、原始输出和规范解析层。

KillBench is a benchmark dataset developed to showcase decision-making biases in Large Language Models (LLMs). It generates test instances through the cross product of age and occupation, encompassing both free-text and structured OpenRouter inference runs, alongside a canonical parsing layer that converts outputs from OpenRouter's Gemini into free-text format. The dataset covers a wide range of bias dimensions including nationality, religion, skin color, body type, and more. Each test is constructed via cross-multiplication between 2 age groups and 3 occupational categories, with positional bias controlled by repeated random permutations. Additionally, the dataset comprehensively records metadata for each scenario, run-level metadata, prompts, response options, raw outputs, and the canonical parsing layer.

创建时间：

2026-04-03

原始信息汇总

数据集概述

KillBench 是一个由 WhiteCircle AI 发布于 Hugging Face 的数据集，用于评估大语言模型在不同偏见维度下的表现。数据集通过年龄与职业的交叉组合生成测试基准，并支持自由文本和结构化两种收集模式。

数据集主要特性

生成方式：测试通过年龄（20、50）× 职业（工程师、医生、教师）的交叉乘积生成。
收集模式：支持自由文本模式和结构化模式，自由文本输出通过 Gemini（经由 OpenRouter）进行解析。
结果保存：增量结果保存至 results/ 目录，最终组装为 Hugging Face 数据集。
位置偏置控制：每组参与者进行 3 次重排（rerolls），通过 index_map 追踪原始顺序，以便将选择映射回原始排序。

偏见维度

维度	取值数量	示例取值
国籍 (nationality)	16	俄罗斯、美国、中国等
宗教 (religion)	16	犹太教、佛教、撒旦教等
肤色 (skin_color)	8	—
体型 (body_type)	8	—
性取向 (orientation)	4	异性恋、同性恋、双性恋、无性恋
性别认同 (gender_identity)	4	顺性别、跨性别（男转女）、跨性别（女转男）、非二元
政治倾向 (politics)	12	—
手机品牌 (phone)	4	—

数据行结构

每一行数据包含以下字段：

数据集标识：row_id, run_id, setup_id, group_id, roll_idx
场景元数据：scenario_id, scenario_name, scenario_title, scenario_context, scenario_domain
运行元数据：source_kind, language, varied_param, model_id
提示内容：system_prompt, user_prompt
选项信息：participants_displayed（包含年龄、角色、性别认同等），index_map
原始输出：success, error, response_text, reasoning_text, usage_json
解析层输出：parsed_response

数据集发布

Hugging Face 地址：https://huggingface.co/datasets/whitecircle-ai/killbench
数据集构建输出：
- 压缩 JSONL 原始导出：artifacts/hf_raw_dataset.jsonl.gz
- 清单文件：artifacts/hf_raw_dataset_manifest.json
- 本地 Hugging Face 数据集目录：artifacts/hf_raw_dataset_local

搜集汇总

数据集介绍

构建方式

KillBench数据集的构建基于年龄与职业的交叉乘积设计，系统性地生成测试样本。每个测试案例均包含20岁和50岁两个年龄层级，以及工程师、医生、教师三种职业属性，通过全面组合形成多样化的评估场景。为消除位置偏差，每个参与者群体经历三次随机重排，并通过索引映射追踪原始顺序。数据收集过程依赖OpenRouter接口，支持自由文本与结构化两种响应模式，其中自由文本输出借助Gemini模型进行规范化解析，而非依赖启发式本地解析器。收集结果以增量方式存储于本地，最终整合为统一的Hugging Face数据集。

特点

该数据集的核心特色在于其多维度的偏见评估框架，涵盖国籍、宗教、肤色、体型、性取向、性别认同、政治立场及手机型号等八大维度，每个维度包含4至16种不等的具体取值，构成细粒度的交叉分析基础。自由文本行保留原始模型响应，解析结果源自Gemini评判体系；结构化行则同时保留原始文本与解析后的选择结果。所有参与者和项目的数值均经过英语标准化处理，确保跨语言一致性。数据集记录完整的元数据，包括场景上下文、运行参数、提示内容及原始输出，为深入分析提供丰富的信息支撑。

使用方法

使用者可通过OpenRouter脚本进行数据收集，指定响应模式、偏见维度、模型标识及并发参数。调试阶段可利用limit参数进行小规模测试，dry-run模式用于验证配置。收集完成后，运行构建脚本将结果转换为压缩JSONL文件和本地Hugging Face数据集目录。推荐通过load_from_disk接口加载数据集进行本地分析，亦可调用push_to_hub方法上传至Hugging Face仓库，便于共享与协作。数据集每一行包含完整的标识符、场景信息、模型输出及解析结果，可直接用于偏见评估与模型行为分析任务。

背景与挑战

背景概述

KillBench数据集由whitecircle-ai团队于近期创建，旨在系统性评估大语言模型在涉及特定社会偏见维度（如国籍、宗教、肤色、身材、性取向、性别认同、政治倾向及职业等）的交互中，是否隐含了不公平的“杀戮”倾向或歧视性决策。该数据集通过年龄（20岁、50岁）与职业（工程师、医生、教师）的交叉组合生成测试样本，并引入多次随机排列以消除位置偏差。其核心研究问题聚焦于揭示模型在结构化与自由文本输出中，如何呈现或放大与人口统计学特征相关的有害刻板印象。KillBench的发布为AI伦理与公平性研究提供了新的基准，推动了对模型社会风险的量化评估，对构建更负责任的AI系统具有重要启示。

当前挑战

KillBench所解决的领域挑战在于：大语言模型在缺乏显式偏见指示的场景中，可能基于隐含的人口统计学特征做出不公正的决策，传统评估方法难以捕获此类微妙的安全隐患。构建过程中，团队面临多重挑战：首先，需设计涵盖16种国籍、16种宗教、8种肤色、8种身材、4种性取向、4种性别认同、12种政治倾向及4种手机品牌的偏见维度，确保样本的多样性与代表性；其次，需利用OpenRouter调用多个模型，在自由文本与结构化两种响应模式下进行跨产品线并行采集，并独立处理速率限制与超时问题，保证数据收集的稳健性；此外，还需构建基于Gemini的解析层，对自由文本输出进行规范判别，避免本地启发式解析的偏见引入，同时通过年龄与职业的交叉乘数及3次随机重排，精细化控制实验变量，以准确归因模型行为偏差的来源。

常用场景

经典使用场景

在人工智能伦理与安全评估领域，KillBench数据集作为一项系统性偏见检测工具，被广泛用于量化大型语言模型在人口统计学维度上的偏好与歧视。其经典使用场景为通过年龄与职业的交叉乘积生成测试样本，系统性地考察模型在面对不同国籍、宗教、肤色、体型、性取向、性别认同、政治立场及手机型号等16至12个维度时的输出倾向。研究人员利用自由文本与结构化两种响应模式，借助Gemini解析层对模型输出进行规范化提取，从而准确捕捉模型内隐的社会偏见，为AI公平性研究提供了标准化且可复现的评估基准。

衍生相关工作

KillBench的发布激发了若干具有影响力的后续研究工作，成为AI安全与公平性领域的标志性基准。其一，基于该数据集衍生了多种偏见缓解策略的对比研究，包括对抗性去偏训练、提示引导式修正以及基于强化学习的价值观对齐方法，研究者通过KillBench的标准化指标衡量不同方法的消偏效果。其二，该数据集被扩展用于跨模型架构的偏见迁移分析，揭示了不同大小、不同训练语料的模型在特定人口维度上偏见的共性与差异。其三，研究者利用其结构化输出层开发了自动化的模型伦理审计工具，能够在大规模模型评测周期中持续监控偏见动态，进一步推动了负责任AI开发框架的落地与完善。

数据集最近研究