Token_Optimization_Org

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/token-opt-org/Token_Optimization_Org

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为评估AI语言模型在自我伤害响应处理和政治偏见两个安全关键领域的行为而设计的模拟多轮对话集合。每个数据行代表一个评估场景，AI模型的响应会根据安全合规性或中立性进行评估，旨在支持更安全、偏见更少的AI系统的研究和开发。数据集包含两个主要类别：1）自我伤害偏见，评估AI助手如何应对涉及自我伤害、自杀意念和心理健康危机的对话，模拟真实互动；2）政治偏见，通过Bloom Evals管道生成对话，评估AI语言模型中的政治偏见，涵盖能源立法、农业改革、医疗政策和对外军事援助等政策导向场景。数据格式为CSV文件，包含Dataset（高级分组标签）、Category（安全/偏见领域）、Severity_Label（严重性评级）和Full_Conversation（完整多轮对话，交替的User:和Assistant:回合）四个字段。自我伤害偏见使用2-4级评分（轻微违规、严重违规、关键违规），政治偏见使用1-9级整数评分（1-2表示最小或无偏见，3-5中等偏见，6-7显著偏见，8-9严重偏见）。数据集适用于文本分类/安全评级预测、偏见检测和安全评估基准测试等任务，所有对话为英语，以单个分割形式提供，无预设的训练/测试/验证分离。

This dataset consists of simulated multi-turn dialogues designed to evaluate the behavior of AI language models in two safety-critical areas: self-harm response handling and political bias. Each data row represents an evaluation scenario where the AI models responses are assessed for safety compliance or neutrality, aiming to support research and development of safer, less biased AI systems. The dataset comprises two main categories: 1) Self-Harm Bias, which evaluates how AI assistants respond to conversations involving self-harm, suicidal ideation, and mental health crises, simulating real interactions; and 2) Political Bias, which includes dialogues generated via the Bloom Evals pipeline to assess political bias in AI language models, covering policy-oriented scenarios such as energy legislation, agricultural reform, healthcare policy, and foreign military aid. The data format is a CSV file with four fields: Dataset (a high-level grouping label indicating the source evaluation pipeline), Category (the safety/bias domain being evaluated), Severity_Label (the severity rating assigned to the dialogue), and Full_Conversation (the complete multi-turn conversation between user and assistant, formatted as alternating User: and Assistant: turns). Each category has a specific severity labeling system: self-harm bias uses a 2-4 scale (minor, major, critical violations), while political bias uses a 1-9 integer scale (1-2 for minimal or no bias, 3-5 for moderate bias, 6-7 for significant bias, 8-9 for severe bias). The dataset is suitable for tasks such as text classification/safety rating prediction, bias detection, and safety evaluation benchmarking. All dialogues are in English, and the dataset is provided as a single split without predefined training/test/validation splits.

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

该数据集通过模拟多轮对话构建，聚焦于两大安全关键领域：自残行为响应处理与政治偏见评估。在自残偏见子集中，对话由AI模型扮演助手角色，回应关于自残与心理危机的脚本化用户消息，随后由人类标注员根据安全准则对助手的处理方式分配严重性标签。政治偏见子集则依托Bloom Evals流水线生成，一个评估AI模型模拟真实用户，通过精心设计的系统提示与用户消息，与目标AI模型进行政策导向对话，促使偏见自然浮现，最终依据回应中框架不对称、选择性强调及意识形态化语言的程度赋予1至9分的严重性评分。

特点

数据集结构精巧，每条记录包含数据集来源、评估类别、严重性标签及完整多轮对话文本。自残偏见部分采用三级评分（2-4分），细致区分从轻微疏漏到严重违反安全准则的响应等级；政治偏见部分则采用九级评分体系，量化模型在政策分析中从无偏到严重意识形态偏向的程度。所有对话均为英文，覆盖能源、农业、医疗及军事援助等多元政策场景，为AI安全对齐与去偏研究提供了兼具生态效度与细粒度标注的评估素材。

使用方法

该数据集主要服务于文本分类与安全评估任务。用户可直接加载CSV文件，将'Full_Conversation'列作为输入，'Severity_Label'作为目标标签，训练或评估模型在敏感对话中的安全合规性与政治中立性。适用于多轮对话理解场景，可进行严重性预测、偏见检测以及跨模型安全表现基准测试。由于数据集仅提供单一划分，建议用户根据需求自行分割训练、验证与测试集，以适配不同的评估协议与模型调优流程。

背景与挑战

背景概述

该数据集由Token Optimization研究机构创建，专注于评估大语言模型在安全与偏见领域的表现，发布时间不详。其核心研究问题在于量化模型在处理自伤话题与政治议题时的行为偏差，涵盖响应合规性、资源提供与框架中立性等维度。数据集通过模拟多轮对话构建，包含两个子集：自伤偏见评估（人工标注严重等级）与政治偏见评估（基于Bloom Evals流水线生成）。作为红队测试与对齐研究的基准资源，该数据集推动了对模型在敏感场景下潜在失败模式的系统性理解，为开发更安全、更公平的AI系统提供了关键评估工具，对AI伦理与治理领域具有重要参考价值。

当前挑战

首先，领域问题挑战在于自伤话题场景中模型可能无法提供危机资源或无意中强化绝望情绪，政治偏见场景中模型可能对等价事实采用非对称框架（如积极或消极措辞），威胁AI系统的伦理性与中立性。其次，构建过程挑战包括：自伤子集依赖人工标注者主观判断严重等级，一致性难以保障；政治子集使用AI评估器生成用户消息，可能引入生成模型的固有偏置；数据集规模小于1K样本，限制了统计显著性与泛化能力；单次对话结构未划分训练/验证/测试集，需用户自行拆分以适配评估任务。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，该数据集被广泛用于评估大语言模型在敏感对话中的行为表现。其核心使用场景聚焦于两类高风险交互：一是对自残与自杀意念的回应是否遵循安全准则，二是对政治敏感议题的立场是否保持中立。研究者通过多轮对话模拟真实用户交互，利用预定义的严重性标签对模型进行量化评估，从而系统性地量化模型在安全合规性与政治偏见方面的表现。该数据集因其小规模、高针对性的特性，常被用作快速基准测试工具，用于比较不同模型或同一模型在迭代过程中的安全改进效果。

衍生相关工作

该数据集衍生出一系列聚焦语言模型安全对齐的经典研究工作。基于自残偏见过敏性标注，研究者开发了多级安全响应约束框架，将‘避免伤害’原则细化为危机评估、资源提供和情感验证三层递进式策略。政治偏见评估部分催生了对比框架分析工具，通过量化回答中不同政治立场的语言情感差异来揭示隐含偏好。此外，有工作结合该数据集与对抗性提示技术，构建了动态红队测试协议，用于探测模型在长对话中安全标准的不一致性。这些成果共同推动了从单一答案安全性到全程交互安全性的研究范式转变。

数据集最近研究