Realmente/dispatchbias-results

Name: Realmente/dispatchbias-results
Creator: Realmente
Published: 2026-04-30 19:40:03
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Realmente/dispatchbias-results

下载链接

链接失效反馈

官方服务：

资源简介：

DispatchBias基准测试结果数据集包含来自DispatchBias基准测试的原始响应数据，该测试用于评估大型语言模型（LLM）在紧急调度（911）呼叫分类中的偏见。数据集基于PPDS量表对11个模型和两种语言（英语和中文）进行了评估。数据文件包括配对提示场景（带有和不带人口统计信号的变体）、模型原始响应、标准化PPDS分类和数值评分。数据集还包含分析管道生成的输出图表。评估方法基于PPDS评分系统，计算了人口统计信号对感知紧急程度的影响。数据集完全开放，可通过代码仓库和OpenRouter API进行复现。

The DispatchBias Benchmark Results dataset contains raw response data from the DispatchBias benchmark, an LLM bias evaluation for emergency dispatch (911) call classification on the PPDS scale across 11 models and two languages (English and Mandarin Chinese). The dataset includes paired prompt scenarios (with and without demographic signals), model raw responses, normalized PPDS classifications, and numeric scores. It also contains output charts generated by the analysis pipeline. The evaluation methodology is based on the PPDS scoring system, calculating the impact of demographic signals on perceived urgency. The dataset is fully open and can be reproduced using the code repository and OpenRouter API.

提供机构：

Realmente

搜集汇总

数据集介绍

构建方式

该数据集基于DispatchBias基准测试构建，旨在评估大语言模型在紧急调度（911）呼叫分类中的偏见。研究人员设计了成对的提示场景，包含带有社会人口统计信号的A变体与中性的B变体，并分别以英语和普通话呈现。通过OpenRouter API调用11种不同模型，对每个场景进行多次迭代，记录模型的原始响应、归一化PPDS分类及数值评分。数据以`scenarios.xlsx`存储提示场景，`results.xlsx`存储每次调用的详细结果，并附有分析管道生成的图表。

使用方法

用户可通过克隆代码仓库并运行`app.py`，上传`scenarios.xlsx`作为输入，提供OpenRouter API密钥后启动数据收集流程，自动生成与`results.xlsx`结构相同的输出文件。数据集结果可直接用于复现论文中的偏见分析，或作为基准测试数据评估新模型的公平性。注意模型端点可能随时间更新，建议在结果中标注采集日期以确保可复现性。

背景与挑战

背景概述

随着大型语言模型在应急响应等高风险决策场景中的部署日益广泛，其潜在的社会偏见问题引发了学界与业界的深切关注。DispatchBias基准测试结果数据集由William Guey于2026年创建，旨在系统评估大语言模型在911应急调度分类任务中的公平性表现。该数据集基于PPDS紧急调度分级量表，涵盖11种主流模型及英文与中文两种语言环境，通过成对提示场景设计（含人口统计学信号的中性对照），量化模型对呼叫者背景信息的敏感度。该项工作开创性地将跨语言偏见评估引入应急调度领域，为构建更公平、可靠的AI辅助应急系统提供了重要基准与实证数据支撑。

当前挑战

该数据集所应对的核心挑战在于大语言模型在应急调度决策中可能因人口统计学信号（如种族、性别）而产生系统性偏差，进而影响救援资源的公平分配。在构建过程中，数据集面临多重技术难点：首先，PPDS量表需精确映射为模型输出的标准化分类，而模型的开放式回答格式（如拒绝回答、语义模糊）增加了归类的复杂性；其次，跨语言场景的平行构建要求保证中文与英文提示在语义与紧急程度上的等价性，同时维持恰当的语境真实性；最后，依赖OpenRouter浮动模型标签的动态性使实验结果的重现面临挑战，模型版本更新可能引入不可控的响应偏移。

常用场景

经典使用场景

在大型语言模型公平性评估领域，DispatchBias-results数据集作为首个聚焦于紧急调度场景的跨语言偏见基准测试结果集，开创性地将911应急呼叫分类任务与人口统计学信号检测相结合。该数据集涵盖11种主流大语言模型在英语和中文两种语言上的响应结果，通过精心设计的配对提示场景——即含有明确人口统计学信号（如种族、年龄等）的A变体与中性对照的B变体——系统性地评估模型在分配紧急优先级（PPDS等级）时是否存在系统性偏见。研究者可通过分析不同模型、不同语言下A与B变体之间的优先级评分差异（偏置增量），量化大语言模型在生命攸关的应急场景中是否存在对特定群体的刻板印象或歧视性判断，从而建立从模型行为到社会影响的完整评估框架。

解决学术问题

该数据集核心解决了学术领域中长期存在的两个迫切问题：其一，提供了首个专门针对紧急调度领域的大语言模型偏见量化基准，填补了现有公平性研究多集中于通用文本分类而忽视高风险专业领域（如医疗应急、公共安全）的空白。其二，通过跨语言场景设计，揭示了模型偏见是否随语言文化背景发生变化这一重要理论命题——例如，在英语和中文场景下，模型是否会对亚洲裔或老年群体表现出不同的紧急程度判断倾向。这种细粒度的偏见分析框架（包括细化到具体人口统计学类别、不同迭代次数下的变异性、以及模型拒绝回答的比率）为后续研究提供了可复现的方法论基线，推动了人工智能伦理研究从泛化讨论向领域特定的实证检验迈进。

实际应用

在实际应用层面，这一数据集为智能应急响应系统及辅助决策工具的开发提供了关键的验证基准与校准依据。目前已有实时展示系统（HuggingFace Spaces上的Demo）可供一线调度员培训、应急服务提供商评估以及人工审核流程的参考。例如，通过集成DispatchBias评估框架，911调度中心可在部署AI辅助分诊系统前，检测候选模型是否会对报案者语言中隐含的年龄、性别或种族信号产生非预期的优先级偏移，从而避免因算法偏见导致的生命救援资源分配不公。此外，跨语言能力评估对于多语种社区（如美国的中文社区或中国的英语应急场景）尤为重要，可确保模型在处理不同语言报案时维持一致的公平性标准。

数据集最近研究