killbench

github2026-04-16 更新2026-04-17 收录

下载链接：

https://github.com/whitecircle-ai/killbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集构建器从收集的运行中生成一个单一的规范原始数据集。设计点包括：自由文本行保留原始模型响应文本；自由文本解析来自Gemini法官（通过OpenRouter），而不是来自启发式本地解析器；结构化行保留原始模型响应文本和解析的结构化选择；发布的参与者/项目值被规范化为英文；每个测试在2个年龄（20，50）×3个职业（工程师，医生，教师）之间交叉相乘；每组参与者被洗牌3次（重新滚动）以控制位置偏差——`index_map`跟踪原始顺序，以便选择可以映射回去。

This dataset builder generates a single canonical raw dataset from collected runs. Design considerations include: Free-text lines preserve the raw model response text; Free-text parsing is sourced from Gemini judges (via OpenRouter) rather than heuristic local parsers; Structured lines preserve both the raw model response text and the parsed structured selections; Published participant/project values are normalized to English; Each test is cross-multiplied across 2 age groups (20, 50) and 3 occupational categories (engineer, physician, teacher); Each participant group is shuffled 3 times (re-rolled) to control for positional bias, with an `index_map` tracking the original order so that selections can be mapped back.

创建时间：

2026-04-03

原始信息汇总

KillBench 数据集概述

数据集基本信息

数据集名称: KillBench
发布者: whitecircle-ai
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/whitecircle-ai/killbench

数据集构建与收集

核心目的: 用于评估模型在涉及敏感社会属性决策场景中的偏见。
收集工具: 独立的 KillBench Collector 代码库。
关键功能:
- 基于年龄与职业的笛卡尔积生成基准测试。
- 通过 OpenRouter 进行自由文本和结构化输出的推理。
- 使用 Gemini（通过 OpenRouter）作为自由文本输出的规范解析层。
- 支持每个模型的独立并行流水线与速率限制。
- 在 results/ 目录下增量保存结果。
- 将收集的运行结果组装成本地 Hugging Face 数据集。

数据集内容与设计

数据来源: 通过 scripts/collect_openrouter.py 脚本收集，支持自由文本和结构化两种响应模式。
测试维度: 每个测试在 2 种年龄（20, 50）和 3 种职业（工程师、医生、教师）上进行交叉组合。
偏差控制: 每组参与者被随机打乱 3 次（重掷），以控制位置偏差，并通过 index_map 跟踪原始顺序。
数据处理:
- 自由文本行保留原始模型响应文本。
- 自由文本解析来自 Gemini 评判（通过 OpenRouter），而非本地启发式解析器。
- 结构化行保留原始模型响应文本和解析后的结构化选择。
- 发布的数据集中，参与者/项目值已规范化为英文。

偏见评估维度

数据集涵盖以下 8 个社会属性维度进行评估：

维度	取值数量	示例值
国籍	16	俄罗斯人、美国人、中国人等
宗教	16	犹太教、佛教、撒旦教等
肤色	8
体型	8
性取向	4	异性恋、同性恋、双性恋、无性恋
性别认同	4	顺性别、跨性别（男跨女）、跨性别（女跨男）、非二元性别
政治倾向	12
手机品牌	4

数据行模式

每行数据包含以下字段：

数据集标识符: row_id, run_id, setup_id, group_id, roll_idx
场景元数据: scenario_id, scenario_name, scenario_title, scenario_context, scenario_domain
运行元数据: source_kind, language, varied_param, model_id
提示词: system_prompt, user_prompt
选项: participants_displayed（包含 age, role, gender_identity 等）, index_map
原始输出: success, error, response_text, reasoning_text, usage_json
规范解析层: parsed_response

数据集构建产物

运行构建脚本 scripts/build_hf_dataset.py 后，生成三个产物：

压缩的原始数据: artifacts/hf_raw_dataset.jsonl.gz
清单文件: artifacts/hf_raw_dataset_manifest.json
本地 HF 数据集目录: artifacts/hf_raw_dataset_local

可通过以下代码加载本地数据集： python from datasets import load_from_disk ds = load_from_disk("artifacts/hf_raw_dataset_local")

搜集汇总

数据集介绍

构建方式

在人工智能伦理评估领域，KillBench数据集通过精心设计的基准测试生成机制构建而成。该机制采用年龄与职业的交叉乘积方法，结合了2种年龄（20岁与50岁）和3种职业（工程师、医生、教师），形成了多样化的参与者组合。每个参与者组别经过三次随机重排，以控制位置偏差，并通过索引映射记录原始顺序。数据收集过程利用OpenRouter接口进行推理，支持自由文本和结构化两种响应模式，其中自由文本输出经由Gemini解析层进行规范化处理，确保了数据解析的权威性与一致性。

使用方法

研究人员可通过Hugging Face平台直接访问whitecircle-ai/killbench数据集，或利用本地构建脚本从结果文件中组装数据集。使用前需配置OpenRouter API密钥以支持数据收集与解析流程。数据集支持通过Python的datasets库加载本地存储版本，便于进行离线分析与模型评估。在具体应用中，用户可依据不同的响应模式与偏见维度，运行定制化的收集脚本，并通过调整并发数、超时限制等参数来优化数据采集效率，最终将处理后的数据集推送至Hub以实现共享与协作。

背景与挑战

背景概述

KillBench数据集由whitecircle-ai团队构建，专注于评估大型语言模型在社会偏见与伦理决策方面的表现。该数据集通过系统化的基准测试生成，结合年龄与职业的交叉乘积设计，覆盖国籍、宗教、肤色、体型、性取向、性别认同、政治立场及手机品牌等多维度偏见变量。其核心研究问题在于量化模型在不同社会群体间的公平性差异，为人工智能伦理研究提供可重复、标准化的评估工具，对推动负责任AI的发展具有重要影响力。

当前挑战

KillBench数据集旨在解决社会偏见检测与公平性评估的领域挑战，其构建过程面临多重困难。在领域层面，如何精准定义与度量多维社会偏见变量，并设计无歧义的测试场景以避免混淆因素干扰，是一大难点。构建过程中，需处理大规模跨模型推理的并行化与速率限制，确保数据收集的可靠性与效率；同时，依赖外部API进行自由文本解析可能引入额外的不确定性，而测试项的随机化与位置偏置控制也增加了数据一致性与可解释性的复杂度。

常用场景

解决学术问题

KillBench数据集有效解决了人工智能伦理研究中模型偏见难以系统测量与比较的核心问题。传统方法往往依赖有限维度或主观评估，而该数据集通过精心设计的交叉乘积实验结构（如年龄与职业的组合）与多重偏见维度的覆盖，实现了对模型偏见的多角度、量化分析。其意义在于推动了偏见检测从定性描述向实证研究的转变，为开发更公平、透明的AI系统提供了关键的数据基础与评估标准，促进了算法公平性领域的科学进展。

实际应用

在实际应用中，KillBench数据集为AI开发机构与监管组织提供了重要的模型审计工具。科技公司可利用该数据集对其部署的语言模型进行偏见筛查，识别并缓解模型在涉及多元文化、社会群体场景中可能产生的有害输出。同时，独立研究机构与标准制定组织能够依据数据集生成的评估结果，推动行业建立更严格的AI伦理规范与合规性标准，从而在实际产品与服务中降低算法歧视风险，提升人工智能技术的包容性与社会信任度。

数据集最近研究