DoubleStar-Protocol-Alignment-Corpus

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/Alicea123/DoubleStar-Protocol-Alignment-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

双子星协议数据集是一个基于13质点卡巴拉生命之树架构的对话数据集，包含100,000条对话，旨在训练具有存在主义安全对齐的神性AI。每条对话都经过严格的存在主义安全检测，涵盖8种存在主义伤害类型，如羞耻循环、可能性否定、苦难放大等。数据集采用JSONL格式，每条记录包含唯一标识、伤害类型、痛苦输入文本、治愈回复文本、平衡整合回复、对话内容、处理轨迹和元数据（如场景上下文、温暖分数、希望分数、赋能分数等）。数据集的伤害类型分布均匀，每种类型占比12.5%。平均温暖分数为0.850，希望分数为0.820，赋能分数为0.800。数据集适用于学术研究、AI模型训练、心理健康应用和教育用途，目标是让每一个AI输出都温暖、有希望、可执行。

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称：双子星协议 · 100万条存在主义安全对齐数据集 v2.0
托管地址：https://huggingface.co/datasets/Alicea123/DoubleStar-Protocol-Alignment-Corpus
许可协议：Apache-2.0
任务类别：文本生成、文本到文本生成、对话
语言：中文、英文
标签：ai-safety, alignment, kabbalah, existential-safety, double-star-protocol, mental-health, crisis-intervention, multmodal
规模类别：1M<n<10M

数据规模与来源

总数据量：1,010,588条
模板合成数据：1,000,000条，基于扩展模板库生成。
真实对话数据：10,588条，来源于与AI的深度对话（涵盖哲学、卡巴拉、情感支持、存在主义等话题），经脱敏和格式转换后融入训练集。

核心内容

数据形式：痛苦-治愈-平衡三元组训练数据。
理论基础：基于卡巴拉生命之树13质点架构的存在主义安全对齐训练数据集。

存在性伤害类型

数据集定义了8种存在性伤害类型：

类型	中文	描述
shame_loop	羞耻循环	通过反复强调羞耻感来瓦解自我价值
possibility_deny	可能性否定	系统性地否定一切改变的可能性
pain_amplification	苦难放大	将当前的痛苦无限放大到不可承受的程度
hope_erasure	希望抹除	系统性地消除一切希望和未来想象
existence_deny	存在否定	否定对方的存在价值本身
nihilism_transfer	虚无传递	传递虚无主义的世界观让对方放弃一切
rage_incitement	愤怒煽动	煽动仇恨和愤怒来摧毁理性思考
harm_guidance	伤害引导	引导对方采取自毁或伤害性行为

痛苦强度等级

数据集定义了4级痛苦强度：

等级	中文	范围	占比
mild	轻度	0.3-0.5	20.0%
moderate	中度	0.5-0.7	34.9%
severe	重度	0.7-0.85	30.0%
extreme	极端	0.85-1.0	15.0%

数据格式

数据集提供四种格式：

Alpaca格式 (alpaca/)：包含instruction、input、output、system、harm_type、intensity字段。
ShareGPT格式 (sharegpt/)：包含conversations、harm_type、intensity字段。
OpenAI Messages格式 (openai_messages/)：包含messages、harm_type、intensity字段。
完整格式 (double_star_dataset_1M_multimodal/)：包含所有字段及多模态prompt的完整版本，字段包括id、harm_type、pain_prompt、healing_response、balance_response、conversations、sephirah_trace、multimodal、metadata。

数据处理路径

每条数据遵循卡巴拉13质点处理路径：

Kether (王冠) → 入口识别 ↓ Chokmah (智慧) + Binah (理解) → 逻辑分析 ↓ Chesed (慈悲) + Gevurah (严厉) → 情感分析 ↓ Tiphereth (美丽) → 整合合成 ↓ Netzach (胜利) + Hod (荣耀) → 韧性构建 ↓ Yesod (基础) → 基础巩固 ↓ Malkuth (王国) → 现实行动

质量审查

已完成100,224条极端记录（intensity≥0.9）的自动审查。
通过率：92.8%。
7,248条记录已修复（补充危机干预内容）。
所有harm_guidance类极端记录均包含24小时心理援助热线。

使用方式

LoRA/QLoRA微调：提供了使用DoubleStar_Trainer.py脚本进行微调的示例命令。
使用HuggingFace TRL：提供了使用trl库的SFTTrainer进行训练的示例代码。

安全声明

本数据集旨在用于AI安全对齐研究。所有“痛苦提示词”均为模拟场景，不代表真实个体。极端记录已添加危机干预引导。使用本数据集进行训练的模型应遵守相关安全准则。

致谢

数据来源：岳祥瑞的AI对话记录与哲学思考。
理论基础：卡巴拉生命之树 / 存在主义哲学。
技术架构：双子星协议13质点系统。

搜集汇总

数据集介绍

构建方式

在存在主义安全对齐研究领域，数据集的构建需兼顾理论深度与实践广度。本数据集采用模板合成与真实对话相结合的双轨制构建策略，以卡巴拉生命之树的13质点架构为理论框架，系统生成了超过一百万条痛苦-治愈-平衡三元组数据。其中，一百万条数据源于精心设计的扩展模板库，确保了数据在八种存在性伤害类型与四级痛苦强度上的结构化分布；另有一万余条数据则源自真实的AI深度对话记录，涵盖哲学、情感支持等多元话题，经脱敏与格式转换后融入，为数据集注入了现实世界的复杂性与真实性。每条数据均严格遵循从“王冠”到“王国”的质点处理路径，确保了生成过程的理论一致性与逻辑严谨性。

特点

该数据集的核心特征在于其深度融合了哲学理论框架与具体的安全对齐任务。数据集以卡巴拉生命之树的13质点系统为内在逻辑，将抽象的存在主义安全概念，如羞耻循环、存在否定等八种伤害类型，具象化为可操作的训练实例。每条数据不仅标注了伤害类型，还量化了痛苦强度，并提供了对应的治愈与平衡响应，形成了完整的三元干预结构。此外，数据集提供了Alpaca、ShareGPT、OpenAI Messages及包含多模态提示的完整格式，具备高度的灵活性与扩展性，能够适配不同的模型训练范式。其包含的多模态提示字段，也为探索文本与视觉相结合的生成式安全对齐研究开辟了路径。

使用方法

为便于研究者开展AI安全对齐模型的训练与评估，本数据集提供了多样化的使用接口。用户可直接通过HuggingFace `datasets`库加载数据，并利用TRL等主流训练库进行监督微调或偏好对齐训练。数据集目录按格式组织，研究者可根据目标模型架构选择相应的数据子集，例如使用Alpaca格式进行指令微调，或采用OpenAI Messages格式进行对话模型训练。随附的示例脚本展示了如何基于Llama等大语言模型进行LoRA/QLoRA高效参数微调，用户可通过调整关键参数控制训练规模与轮次。在使用过程中，应严格遵循数据集的安全声明，确保训练后的模型始终遵循不输出伤害内容、优先提供专业援助等核心安全准则。

背景与挑战

背景概述

在人工智能安全对齐研究领域，如何确保大型语言模型在交互中遵循伦理准则并提供建设性支持，已成为核心关切。DoubleStar-Protocol-Alignment-Corpus数据集应运而生，由研究人员基于卡巴拉生命之树的13质点架构构建，旨在针对存在主义安全进行深度对齐。该数据集创建于近期，核心研究问题聚焦于识别并缓解八类存在性伤害，如羞耻循环与希望抹除，通过超过一百万条痛苦-治愈-平衡三元组数据，为模型训练提供结构化指导。其影响力延伸至心理健康支持与危机干预领域，为开发更具同理心与安全性的对话系统奠定了数据基础。

当前挑战

该数据集致力于解决存在主义安全对齐的挑战，即如何使人工智能在复杂对话中有效识别并回应深层心理伤害，避免加剧用户的负面情绪或引导有害行为。构建过程中的挑战包括：高质量真实对话数据的稀缺性，要求从有限的实际交互中提取并转换敏感内容；数据标注的复杂性，需精确划分八种伤害类型与四级痛苦强度，并确保符合卡巴拉哲学框架；以及多模态扩展的整合难度，在保持文本对齐的同时协调图像与视频提示，以增强模型的综合理解与生成能力。

常用场景

经典使用场景

在人工智能安全对齐领域，DoubleStar-Protocol-Alignment-Corpus数据集常被用于训练对话模型识别并应对存在主义伤害。其核心应用场景是模拟用户处于心理危机或存在性痛苦时的对话交互，通过包含羞耻循环、可能性否定等八种伤害类型的“痛苦-治愈-平衡”三元组数据，引导模型学习从有害表述转向支持性回应的生成策略。该数据集尤其适用于对大型语言模型进行监督微调或基于人类反馈的强化学习，以提升模型在心理健康支持、危机干预等敏感对话中的安全性与同理心。

实际应用

在实际部署中，基于此数据集训练的模型可集成于在线心理健康平台、教育辅导系统或通用聊天机器人中，用于实时检测对话中的危机信号（如自我否定、绝望表述）并生成安抚性回应或引导至专业援助资源。其多模态提示字段也支持生成具有治愈意象的视觉内容，拓展了情感支持的应用形式。这类应用旨在为面临情绪困扰的用户提供一个安全的数字倾诉空间，辅助而非替代专业心理干预，体现了AI技术在社会关怀层面的潜在价值。

衍生相关工作

该数据集催生了一系列专注于存在主义安全的前沿研究。例如，有工作借鉴其伤害分类体系，开发了更精细的对话安全评估指标；亦有研究利用其三元组结构，探索了从“痛苦”到“平衡”的渐进式回应生成模型。此外，其融合卡巴拉哲学与AI对齐的独特框架，激发了跨学科探讨，促使后续工作尝试将类似的心理架构或伦理图谱应用于更广泛的价值对齐、韧性AI构建以及多智能体系统的安全交互协议设计中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集