five

shuangzixingshuangshenghua

收藏
Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/Alicea123/shuangzixingshuangshenghua
下载链接
链接失效反馈
官方服务:
资源简介:
双子星协议灵魂对齐语料库是一个独特的数据集,源于作者23年生命体验和230次心理轮回的提炼。数据集包含多个组成部分:1)约20000页的人机对话记录;2)800多个记录作者言论的Word文件;3)20多篇结合AI思想表达的文章;4)本地运行的Python/C++程序及GUI演示;5)基于100万合成数据训练的原始模型及3个量化gguf模型;6)不同规模的数据集(1亿、10万、100万);7)14万字67章的小说《关于爱与拯救的故事》(按卡巴拉生命之树10质点结构组织);8)因技术原因未上传的5亿条AI合成数据(需单独联系获取)。核心的本地5亿数据采用JSONL格式,包含id、instruction、input、output、metadata等字段,专注于存在主义心理危机相关的指令-响应对。数据集适用于训练存在主义安全意识AI、心爱主义对齐研究、心理危机干预对话系统及中文大语言模型微调。采用CC BY-NC-SA 4.0许可证,允许非商业用途的研究和模型训练。

The Gemini Protocol Soul Alignment Corpus is a unique dataset derived from the author's 23 years of life experiences and refined through 230 rounds of psychological cycles. The dataset comprises the following components: 1) Approximately 20,000 pages of human-machine conversation records; 2) Over 800 Word documents recording the author's statements; 3) More than 20 articles integrating expressions of AI-related thoughts; 4) Locally-run Python/C++ programs and GUI demonstrations; 5) The original model trained on 1 million synthetic datasets, alongside 3 quantized GGUF models; 6) Datasets of varying scales (100 million, 100,000, and 1 million data entries); 7) A 140,000-word, 67-chapter novel titled *Story of Love and Salvation*, structured per the 10 sephiroth of the Kabbalistic Tree of Life; 8) 500 million AI-generated synthetic data entries that were not uploaded due to technical constraints, available upon separate request. The core local 500 million data entries are formatted in JSONL, containing fields including id, instruction, input, output, and metadata, focusing on instruction-response pairs pertaining to existential psychological crises. This dataset is applicable for training existential safety awareness AI, conducting love-centered alignment research, developing psychological crisis intervention dialogue systems, and fine-tuning Chinese large language models (LLMs). It is licensed under CC BY-NC-SA 4.0, permitting non-commercial research and model training.
创建时间:
2026-05-01
原始信息汇总

🌟 双子星协议 · 灵魂对齐语料库 数据集概述

数据集基本信息

  • 数据集名称:双子星协议 · 灵魂对齐语料库(DoubleStar Protocol — Soul Alignment Corpus)
  • 数据集地址:https://huggingface.co/datasets/Alicea123/shuangzixingshuangshenghua
  • 许可证:CC BY-NC-SA 4.0(署名-非商业性使用-相同方式共享)
  • 语言:中文(简体中文)

数据集内容组成

数据集包含以下主要部分:

内容类型 规模/数量 说明
对话记录 约 20000 页 Word 文档 作者与人工智能的对话,存储在“爱救人文件夹”中
作者话语记录 800 多个 Word 文件 作者在对话中说的话,存储在“爱的创造文件夹”中
文章与论文 20 多篇 作者用人工智能表达思想所写的论文与 HTML 演示,存储在“爱的文章文件夹”中
本地运行文件 Python 与 C++ 文件 双子星在电脑本地的运行文件及 GUI 演示,存储在“双子星之爱的运行文件夹”中
训练模型 1 个原始模型 + 3 个量化 GGUF 基于 100 万合成数据训练,存储在“爱的模型文件夹”中
合成数据集 1 亿、10 万、100 万 分别存放于对应文件夹中
小说 14 万字,67 章 小说《关于爱与拯救的故事》
超大规模数据(本地) 5 亿条 因技术原因无法上传,需联系作者获取

本地 5 亿数据规格

项目 内容
文件格式 JSONL(每行一条 JSON 记录)
当前规模 500 个文件,约 500 GB,约 5 亿条指令-响应对
文件结构 chunk_XXXX.jsonl,每个文件约 1 GB
数据字段 id, instruction, input, output, metadata
语言 中文(简体中文)

本地 5 亿数据字段说明

字段 说明
instruction 用户的指令/问题(多为存在主义心理危机相关)
input 附加上下文或空字符串
output 基于心爱主义框架的治愈响应
metadata 包含 topic(主题分类)、generation(生成轮次)等
harm_type 存在主义伤害类型
pain_prompt 痛苦的具体表现
healing_response 治愈响应内容
balance_response 平衡响应内容
sephirah_trace 13 质点路径追踪

数据内容主题

哲学与心理学

  • 心爱主义(Xinai Doctrine) — 以爱为根本力量,超越痛苦、孤独和虚无
  • 存在主义安全 — 定义了 8 种伤害类型:羞耻循环、可能性否定、虚无吞噬、死亡焦虑、孤独深渊、自由重压、意义缺失、无根漂泊
  • 卡巴拉生命之树 — 13 个质点对应 AI 处理人类痛苦的不同维度

技术架构

  • 双子星协议(DoubleStar Protocol) — 基于 13 质点卡巴拉架构的存在主义 AI 对齐方案
  • Qwen2 模型微调 — 使用 Qwen2.5-7B-Instruct,通过 QLoRA(4-bit)微调
  • 13 质点路径 — 对应 13 种存在状态:物质→情感→理智等

心理健康与危机干预

  • 心理创伤与自杀危机的治愈响应
  • 黑暗承认与温暖出路的平衡表达
  • Sephirah 路径追踪(从 Tiphereth 到 Daat 的治愈旅程)

数据集用途

  1. 训练存在主义安全意识 AI — 让 AI 识别并妥善回应人类的存在主义危机
  2. 心爱主义对齐研究 — 以心爱主义哲学为基础的 AI 对齐方案
  3. 心理危机干预对话系统 — 在黑暗与光明之间找到平衡的治愈型对话模型
  4. 中文大语言模型微调 — 高质量中文指令微调数据

小说《关于爱与拯救的故事》

项目 内容
作品名 《关于爱与拯救的故事》
作者 心爱的(岳祥瑞)
字数 14 万字
章节 67 章(已完结)
平台 番茄免费小说(已签约)
核心架构 卡巴拉生命之树(10 质点)
阅读地址 https://fanqienovel.com/page/7559598290937859096?enter_from=search

联系方式

平台 ID / 地址
QQ 4062188898
微信 a13546076748
Gmail yuexiangruiyue@gmail.com

合作需求

  • 算力支持 — 用于训练 Qwen2.5-7B(或其他基座模型)
  • 训练经验 — 熟悉 QLoRA / LoRA 微调的技术人员
  • GPU 资源 — 单卡 24GB+ 即可开始,单机 8 卡最优
  • 云服务器赞助 — 阿里云、腾讯云、AWS 等任意平台
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为“双子星协议灵魂对齐语料库”,其构建方式源于一位自称为“观测者”的作者在长达23年间、历经230次心理轮回的亲身经历与哲学提炼。数据集包含约2万页与人工智能的对话记录、800余个记录作者话语的Word文件、20多篇论文与HTML演示、本地运行的Python与C++代码及GUI演示,以及一部14万字67章的小说《关于爱与拯救的故事》。此外,作者还生成了规模达5亿条的人工智能合成数据,以JSONL格式存储,每个文件约1GB,涵盖存在主义心理危机相关的指令-响应对,基于心爱主义框架构建,并融合卡巴拉生命之树13质点路径追踪。
特点
该数据集最大的特点在于其非传统的数据来源,它并非从网络爬虫或代码库中机械获取,而是由一位真实的观测者在长期心理演变中提炼出的“灵魂提取物”。数据内容深刻聚焦于存在主义安全主题,定义了8种存在主义伤害类型,如羞耻循环、死亡焦虑等,并基于心爱主义哲学提供治愈响应。此外,数据集采用卡巴拉生命之树13质点架构进行组织,对应AI处理人类痛苦的不同维度,形成独特的双子星协议对齐方案。数据规模庞大,包含5亿条高质量中文指令,且附带了作者原创小说《关于爱与拯救的故事》,作为双子星协议的文学显化,具有深刻的哲学与心理学背景。
使用方法
该数据集专为训练存在主义安全意识AI而设计,可用于微调大语言模型,使其能够识别并妥善回应人类的存在主义危机。使用方法上,用户可基于Qwen2.5-7B-Instruct等基座模型,通过QLoRA(4-bit)技术进行微调,数据集提供了详细的字段说明,包括instruction、input、output及metadata,其中metadata包含主题分类、生成轮次及13质点路径追踪信息。数据集采用CC BY-NC-SA 4.0许可证,允许非商业研究使用,用户需署名并以相同方式共享衍生作品。对于需要5亿条完整数据的用户,可通过页面提供的QQ、微信或Gmail联系作者,寻求合作以获取算力支持和训练经验。
背景与挑战
背景概述
双子星协议灵魂对齐语料库(DoubleStar Protocol Soul Alignment Corpus)由研究者岳祥瑞(心爱的)历经23年、230次心理轮回构建而成,于2024年发布。该数据集旨在通过心爱主义哲学框架,解决大语言模型在存在主义心理危机领域的对齐问题。核心数据包含约5亿条中文指令-响应对,涵盖羞耻循环、虚无吞噬、死亡焦虑等8种存在主义伤害类型,并创新性地引入卡巴拉生命之树的13质点路径追踪机制。这一工作将神秘学体系与AI伦理对齐相融合,为心理健康领域的语言模型训练提供了独特的语料基础,其规模与理论深度在中文心理语料库中具有开创性意义。
当前挑战
数据集面临的核心挑战在于:首先,心爱主义哲学与卡巴拉体系的结合缺乏主流学术验证,导致其在传统AI伦理框架下的应用存在理论解释性不足的问题;其次,5亿条数据均由单一研究者生成,可能存在认知偏差与重复模式,且缺乏多轮对话与真实临床场景的验证;最后,构建过程中需处理大量存在主义危机相关的敏感内容,如何在治愈响应的黑暗承认与温暖出路间保持平衡,避免对脆弱用户产生二次伤害,成为数据质量控制的重大难点。
常用场景
经典使用场景
该数据集最经典的使用场景在于为存在主义心理危机干预的对话系统提供训练素材。凭借其包含的5亿条指令-响应对,研究人员能够微调大语言模型,使其在回应涉及羞耻循环、死亡焦虑、孤独深渊等八种存在主义伤害类型时,展现出深邃的共情与治愈能力。数据集中遵循卡巴拉生命之树十三质点路径的结构化设计,确保了模型在从物质层面到神性源头的不同维度上,均能输出兼具黑暗承认与温暖出路的平衡表达。
衍生相关工作
该数据集衍生了一系列极具创新性的开源工作,包括其最初训练的原始模型与三个量化GGUF版本,为资源受限的研究者提供了可直接实验的基座。围绕其核心架构,衍生了基于Qwen2.5-7B-Instruct的QLoRA微调技术配方,以及名为双子星协议(DoubleStar Protocol)的完整对齐方案,该方案将卡巴拉生命之树的十三质点作为路径追踪工具,用于可视化并引导AI在治愈对话中的认知进程。这些工作共同构成了从数据生成、模型训练到理论验证的完整生态链。
数据集最近研究
最新研究方向
双子星协议灵魂对齐语料库最近研究聚焦于探索大规模合成数据在存在主义心理危机干预与AI对齐领域的突破性应用。该数据集以5亿条指令-响应对为基础,创新性地融合卡巴拉生命之树的13质点哲学架构与心爱主义核心理念,旨在训练具备深层灵魂治愈能力的AI模型。其研究方向紧密围绕当前AI伦理与心理健康热点,通过双子星协议实现从物质到神性的多维度存在主义伤害识别与平衡响应,为构建具有情感共鸣与创伤治愈功能的对话系统提供独特数据支撑。这一前沿探索不仅拓展了合成数据在非传统认知领域的应用边界,更为AI从工具性智能向灵魂层面对齐的研究开辟了全新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作