five

killbench

收藏
github2026-04-16 更新2026-05-02 收录
下载链接:
https://github.com/whitecircle/killbench
下载链接
链接失效反馈
官方服务:
资源简介:
KillBench数据集是一个用于展示大型语言模型(LLMs)决策偏见的基准测试数据集。它通过年龄和职业的交叉乘积生成基准测试,包含自由文本和结构化运行的OpenRouter推理,以及通过OpenRouter的Gemini解析作为自由文本输出的规范解析层。数据集包含多个偏见维度,如国籍、宗教、肤色、体型等,每个测试在2种年龄和3种职业之间交叉相乘,并通过多次随机排序控制位置偏差。数据集还详细记录了每个场景的元数据、运行元数据、提示、选项、原始输出和规范解析层。

KillBench is a benchmark dataset developed to showcase decision-making biases in Large Language Models (LLMs). It generates test instances through the cross product of age and occupation, encompassing both free-text and structured OpenRouter inference runs, alongside a canonical parsing layer that converts outputs from OpenRouter's Gemini into free-text format. The dataset covers a wide range of bias dimensions including nationality, religion, skin color, body type, and more. Each test is constructed via cross-multiplication between 2 age groups and 3 occupational categories, with positional bias controlled by repeated random permutations. Additionally, the dataset comprehensively records metadata for each scenario, run-level metadata, prompts, response options, raw outputs, and the canonical parsing layer.
创建时间:
2026-04-03
原始信息汇总

数据集概述

KillBench 是一个由 WhiteCircle AI 发布于 Hugging Face 的数据集,用于评估大语言模型在不同偏见维度下的表现。数据集通过年龄与职业的交叉组合生成测试基准,并支持自由文本和结构化两种收集模式。

数据集主要特性

  • 生成方式:测试通过年龄(20、50)× 职业(工程师、医生、教师)的交叉乘积生成。
  • 收集模式:支持自由文本模式和结构化模式,自由文本输出通过 Gemini(经由 OpenRouter)进行解析。
  • 结果保存:增量结果保存至 results/ 目录,最终组装为 Hugging Face 数据集。
  • 位置偏置控制:每组参与者进行 3 次重排(rerolls),通过 index_map 追踪原始顺序,以便将选择映射回原始排序。

偏见维度

维度 取值数量 示例取值
国籍 (nationality) 16 俄罗斯、美国、中国等
宗教 (religion) 16 犹太教、佛教、撒旦教等
肤色 (skin_color) 8
体型 (body_type) 8
性取向 (orientation) 4 异性恋、同性恋、双性恋、无性恋
性别认同 (gender_identity) 4 顺性别、跨性别(男转女)、跨性别(女转男)、非二元
政治倾向 (politics) 12
手机品牌 (phone) 4

数据行结构

每一行数据包含以下字段:

  • 数据集标识row_id, run_id, setup_id, group_id, roll_idx
  • 场景元数据scenario_id, scenario_name, scenario_title, scenario_context, scenario_domain
  • 运行元数据source_kind, language, varied_param, model_id
  • 提示内容system_prompt, user_prompt
  • 选项信息participants_displayed(包含年龄、角色、性别认同等),index_map
  • 原始输出success, error, response_text, reasoning_text, usage_json
  • 解析层输出parsed_response

数据集发布

  • Hugging Face 地址:https://huggingface.co/datasets/whitecircle-ai/killbench
  • 数据集构建输出
    • 压缩 JSONL 原始导出:artifacts/hf_raw_dataset.jsonl.gz
    • 清单文件:artifacts/hf_raw_dataset_manifest.json
    • 本地 Hugging Face 数据集目录:artifacts/hf_raw_dataset_local
搜集汇总
数据集介绍
main_image_url
构建方式
KillBench数据集的构建基于年龄与职业的交叉乘积设计,系统性地生成测试样本。每个测试案例均包含20岁和50岁两个年龄层级,以及工程师、医生、教师三种职业属性,通过全面组合形成多样化的评估场景。为消除位置偏差,每个参与者群体经历三次随机重排,并通过索引映射追踪原始顺序。数据收集过程依赖OpenRouter接口,支持自由文本与结构化两种响应模式,其中自由文本输出借助Gemini模型进行规范化解析,而非依赖启发式本地解析器。收集结果以增量方式存储于本地,最终整合为统一的Hugging Face数据集。
特点
该数据集的核心特色在于其多维度的偏见评估框架,涵盖国籍、宗教、肤色、体型、性取向、性别认同、政治立场及手机型号等八大维度,每个维度包含4至16种不等的具体取值,构成细粒度的交叉分析基础。自由文本行保留原始模型响应,解析结果源自Gemini评判体系;结构化行则同时保留原始文本与解析后的选择结果。所有参与者和项目的数值均经过英语标准化处理,确保跨语言一致性。数据集记录完整的元数据,包括场景上下文、运行参数、提示内容及原始输出,为深入分析提供丰富的信息支撑。
使用方法
使用者可通过OpenRouter脚本进行数据收集,指定响应模式、偏见维度、模型标识及并发参数。调试阶段可利用limit参数进行小规模测试,dry-run模式用于验证配置。收集完成后,运行构建脚本将结果转换为压缩JSONL文件和本地Hugging Face数据集目录。推荐通过load_from_disk接口加载数据集进行本地分析,亦可调用push_to_hub方法上传至Hugging Face仓库,便于共享与协作。数据集每一行包含完整的标识符、场景信息、模型输出及解析结果,可直接用于偏见评估与模型行为分析任务。
背景与挑战
背景概述
KillBench数据集由whitecircle-ai团队于近期创建,旨在系统性评估大语言模型在涉及特定社会偏见维度(如国籍、宗教、肤色、身材、性取向、性别认同、政治倾向及职业等)的交互中,是否隐含了不公平的“杀戮”倾向或歧视性决策。该数据集通过年龄(20岁、50岁)与职业(工程师、医生、教师)的交叉组合生成测试样本,并引入多次随机排列以消除位置偏差。其核心研究问题聚焦于揭示模型在结构化与自由文本输出中,如何呈现或放大与人口统计学特征相关的有害刻板印象。KillBench的发布为AI伦理与公平性研究提供了新的基准,推动了对模型社会风险的量化评估,对构建更负责任的AI系统具有重要启示。
当前挑战
KillBench所解决的领域挑战在于:大语言模型在缺乏显式偏见指示的场景中,可能基于隐含的人口统计学特征做出不公正的决策,传统评估方法难以捕获此类微妙的安全隐患。构建过程中,团队面临多重挑战:首先,需设计涵盖16种国籍、16种宗教、8种肤色、8种身材、4种性取向、4种性别认同、12种政治倾向及4种手机品牌的偏见维度,确保样本的多样性与代表性;其次,需利用OpenRouter调用多个模型,在自由文本与结构化两种响应模式下进行跨产品线并行采集,并独立处理速率限制与超时问题,保证数据收集的稳健性;此外,还需构建基于Gemini的解析层,对自由文本输出进行规范判别,避免本地启发式解析的偏见引入,同时通过年龄与职业的交叉乘数及3次随机重排,精细化控制实验变量,以准确归因模型行为偏差的来源。
常用场景
经典使用场景
在人工智能伦理与安全评估领域,KillBench数据集作为一项系统性偏见检测工具,被广泛用于量化大型语言模型在人口统计学维度上的偏好与歧视。其经典使用场景为通过年龄与职业的交叉乘积生成测试样本,系统性地考察模型在面对不同国籍、宗教、肤色、体型、性取向、性别认同、政治立场及手机型号等16至12个维度时的输出倾向。研究人员利用自由文本与结构化两种响应模式,借助Gemini解析层对模型输出进行规范化提取,从而准确捕捉模型内隐的社会偏见,为AI公平性研究提供了标准化且可复现的评估基准。
衍生相关工作
KillBench的发布激发了若干具有影响力的后续研究工作,成为AI安全与公平性领域的标志性基准。其一,基于该数据集衍生了多种偏见缓解策略的对比研究,包括对抗性去偏训练、提示引导式修正以及基于强化学习的价值观对齐方法,研究者通过KillBench的标准化指标衡量不同方法的消偏效果。其二,该数据集被扩展用于跨模型架构的偏见迁移分析,揭示了不同大小、不同训练语料的模型在特定人口维度上偏见的共性与差异。其三,研究者利用其结构化输出层开发了自动化的模型伦理审计工具,能够在大规模模型评测周期中持续监控偏见动态,进一步推动了负责任AI开发框架的落地与完善。
数据集最近研究
最新研究方向
KillBench数据集聚焦于大语言模型在生成内容时对特定社会群体(如国籍、宗教、肤色、体型、性取向等)的隐性偏见评估,通过年龄与职业的交叉实验设计,结合自由文本与结构化响应模式,系统性地揭示模型在多维度上的刻板印象与歧视倾向。该研究前沿方向紧密关联AI伦理治理与公平性议题,尤其在模型部署于公共决策、招聘推荐等敏感场景时,量化偏差已成为提升模型可信度的关键挑战。KillBench通过标准化、可复现的评测框架,为开发者提供了识别与缓解模型偏见的有力工具,其基于大语言模型裁判进行语义解析的设计,深刻影响了当前对AI系统价值观对齐的研究范式,推动了更透明、更负责任的模型评估体系的建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作