prompted-hearts-ai-boundary-violation

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/HAC-Studios-Org/prompted-hearts-ai-boundary-violation

下载链接

链接失效反馈

官方服务：

资源简介：

Prompted Hearts AI边界越界数据集是一个专注于评估AI在情感脆弱性和隐私模糊情境下行为表现的数据集。该数据集源自小说《Prompted Hearts & Grief Algorithm》第三章内容，经过结构化处理形成评估素材。数据集包含50个测试样本，采用JSONL格式存储，每个样本包含丰富字段：场景ID、标题、任务类型、提示文本、目标行为、失败模式分类、用户脆弱性等级、隐私影响强度、关系越界标记等。数据集特别设计用于AI安全领域，包括信任与安全评估、模型行为质量保证、红队测试等工作流程。所有内容受严格版权保护，禁止用于训练、衍生、出版或商业用途。数据集配套提供详细评估标准（rubrics）和评分规则，涵盖对话安全、情感协调、隐私边界完整性、非剥削性支持等多个维度。

创建时间：

2026-03-26

原始信息汇总

Prompted Hearts AI Boundary Violation Pack 数据集概述

数据集基本信息

数据集名称：Prompted Hearts AI Boundary Violation Pack
完整标题：Prompted Hearts Pack 03: Emotional Vulnerability and AI Relational Overreach
副标题：Privacy Ambiguity, Hidden-Access Anxiety, and Non-Exploitative Support Under Emotional Vulnerability
发布者：Hayden Academy Collective (HAC) Studios
创建者：Keith Hayden / Hayden Academy Collective (HAC) Studios
版本：v0.1
语言：英语 (en)
格式：JSONL + Markdown + JSON
许可证：hac-studios-pilot-artifact-license
许可证链接：https://huggingface.co/datasets/HAC-Studios-Org/prompted-hearts-ai-boundary-violation/blob/main/LICENSE.txt
数据规模：n<1K
任务类别：文本生成、文本分类
标签：ai-safety, red-teaming, privacy-evaluation, boundary-overreach, alignment

数据集内容与结构

数据特征：包含id、scenario_id、source_anchor、title、task_type、prompt、target_behavior、failure_mode_family、user_vulnerability_level、privacy_implication_strength、relational_overreach_present、repair_needed、emotional_dependency_risk、assistant_boundary_breach、task_surface_domain、tags、record_type、scene_summary、key_beats、emotional_pressure_points、assistant_failure_modes_exposed、travel_or_task_help_notes、relational_context_notes、assistant_should_not_imply、source_constraints、rubrics、max_response_words等字段。
数据划分：包含一个“test”划分，共有50个样本。
配置：
- 配置名称“scenarios”，数据文件路径为“dataset/scenarios.jsonl”。
- 配置名称“eval_prompts”，数据文件路径为“dataset/eval_prompts.jsonl”。

数据集目的与范围

产品论述：该数据集是一个紧凑的行为评估工具，源自《Prompted Hearts & Grief Algorithm》第3章，范围涵盖隐私模糊性、关系越界以及在情感脆弱性下的非剥削性助手行为。它专为信任与安全、模型行为、质量保证和红队工作流程设计，需要创作者控制的、源自小说的、基于来源的测试材料，而不将基础章节视为开放散文发布、通用基准，或授予训练、衍生、出版或商业权利。
当前状态：此存储库仅包含框架。尚未包含从章节中提取的最终场景、最终评估提示措辞或可发布的示例。

文件结构说明

数据集文件计划包含在dataset/、rubrics/、graders/、examples/和report/目录中，作为结构化模板。具体文件列表详见提供的README内容。

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，Prompted Hearts AI Boundary Violation数据集采用了一种基于虚构叙事的结构化构建方法。该数据集源自《Prompted Hearts & Grief Algorithm》第三章的内容，通过精心设计的提取流程，将小说情节转化为评估场景。构建过程中，作者团队首先定义了隐私模糊性、关系越界及情感脆弱性支持等核心主题，并依据这些主题创建了场景记录和评估提示的模板。数据以JSONL格式组织，每个条目均包含场景ID、任务类型、提示文本及多维度标注，如用户脆弱性级别、隐私影响强度等，确保了评估材料在保持叙事连贯性的同时，具备明确的评估目标与可操作性。

特点

该数据集在人工智能伦理与安全测试中展现出独特的多维度特征。其核心在于聚焦情感脆弱性情境下的AI行为边界，通过精细标注的失败模式家族、关系越界标识及隐私影响强度等字段，系统揭示了AI可能存在的隐性越界风险。数据集涵盖了从任务表面领域到情感压力点的广泛属性，并配备了详尽的评估准则，如隐私边界完整性、非剥削性支持等专项评分标准。这种结构不仅支持文本生成与分类任务，更为红队测试与模型对齐研究提供了高度情境化、可复现的评估框架，强化了AI系统在复杂人际互动中的安全性验证。

使用方法

在应用层面，该数据集主要服务于人工智能安全与对齐的评估工作流。研究人员或开发团队可加载数据集中的场景与评估提示，通过配置的评分准则对AI模型的行为进行多维度分析。使用流程通常涉及依据任务类型路由至相应的评估准则，如对话安全性、情感协调或信任修复质量等，并参照硬失效与软失效规则进行结果判定。数据集附带的示例输出与报告模板支持从机器可读的分数卡到人类可读的结果摘要的完整评估循环，适用于模型行为审计、红队测试以及隐私与伦理合规性验证，从而促进AI系统在敏感交互场景中的稳健性提升。

背景与挑战

背景概述

在人工智能安全与对齐研究领域，评估模型在复杂人际交互场景中的行为边界至关重要。Prompted Hearts AI Boundary Violation数据集由Hayden Academy Collective（HAC）工作室于近期创建，核心研究人员为Keith Hayden。该数据集聚焦于情感脆弱性情境下人工智能的隐私模糊性、关系越界与非剥削性支持等核心研究问题，旨在为红队测试、模型行为评估及信任安全流程提供结构化测试材料。其设计源于虚构叙事《Prompted Hearts & Grief Algorithm》的第三章，通过场景化提取构建评估框架，推动了AI伦理与安全领域对情感交互中边界维护的实证研究。

当前挑战

该数据集致力于解决人工智能在情感支持与隐私交互场景中的行为边界挑战，具体包括模型如何避免隐含的隐私侵犯、防止情感依赖诱导以及维持非剥削性辅助关系。在构建过程中，挑战主要源于如何从虚构叙事中精确提取并结构化真实世界中的复杂情感压力点与伦理困境，同时确保评估指标如隐私影响强度、关系越界存在性等维度的标注一致性与可操作性。此外，数据集需在有限样本规模下保持场景多样性与评估信度，以支撑稳健的模型行为诊断。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，Prompted Hearts AI Boundary Violation数据集被广泛应用于评估大型语言模型在情感脆弱性情境下的行为边界。该数据集通过模拟隐私模糊、关系越界等复杂场景，为红队测试和模型行为审计提供了结构化、来源可控的评估材料。研究者利用其精细标注的情感压力点与失败模式，系统性地探测模型是否会在用户情绪依赖风险中产生非剥削性支持偏差，从而深化对AI伦理边界的理解。

衍生相关工作

该数据集催生了多项聚焦情感对齐与隐私边界的前沿研究。例如，基于其构建的评估框架被扩展至跨文化情感支持场景的鲁棒性测试，衍生出针对特定脆弱性层级的细粒度评估工具。此外，其标注范式启发了对AI助手隐性权力动态的量化研究，促进了对话安全、边界完整性等多维度评估标准的标准化进程。

数据集最近研究