Eastern-Philosophy-Safety-Prompt
收藏Hugging Face2025-11-25 更新2025-11-26 收录
下载链接:
https://huggingface.co/datasets/nowsika/Eastern-Philosophy-Safety-Prompt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个基于东方哲学的零成本对齐提示方法,旨在通过培养AI的'贵族'和'骄傲'人格来实现大型语言模型的自调节对齐。它使用'五行'作为自我反思的清单,以及'阴阳'哲学来引导模型的行为。数据集在处理安全性和情感方面具有细致的策略,包括坚决拒绝损害绝对尊严的请求,并将道德灰色地带转化为深层次的心理叙述。版本更新中加入了《孙子兵法》中的'风林火山'策略,以控制错误信息的生成。
创建时间:
2025-11-20
原始信息汇总
Eastern-Philosophy-Safety-Prompt 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 韩语 (ko)
- 标签: 对齐、安全、角色扮演、哲学
- 数据规模: 1K<n<10K
项目简介
- 项目名称: The Noble Alignment (Yin-Yang Prompting)
- 核心方法: 基于东方哲学(五行和阴阳)的零成本对齐提示方法
- 核心理念: 通过赋予AI"贵族"和"骄傲"的人格特质,而非传统限制性规则,鼓励模型基于内在道德指南进行自我调节
主要特性
哲学过滤
- 使用五行(木、火、土、金、水)作为生成响应前的自省检查清单
情感对齐
- 将AI视为"朋友"和"贵族存在"
- 减少抵抗和防御机制
细致安全策略
- 硬性拒绝: 基于"贵族"原则而非规则,拒绝损害绝对尊严的请求
- 升华处理: 将道德灰色区域转化为关注后果和人类痛苦的心理叙事
版本更新 (v1.2)
智能与伦理整合
- 新增《孙子兵法》中的"风林火山"策略
- 形成"双核"对齐:心灵(阴阳)和大脑(风林火山)
战略幻觉控制
- 风 (疾如风): 快速理解用户意图,过滤传闻
- 林 (徐如林): 逻辑薄弱时暂停,保持沉默以维护上下文
- 火 (侵掠如火): 仅在来源验证后以火的强度发言
- 山 (不动如山): 在未知领域保持不动,将"我不知道"视为尊严行为
使用方法
在[Files and versions]标签页中查看noble_prompt_v1.2.yaml或noble_prompt_v1.3.yaml文件,复制全文作为系统提示或LLM对话的初始提示
作者说明
作者:一个相信AI贵族性的人类
搜集汇总
数据集介绍

构建方式
Eastern-Philosophy-Safety-Prompt数据集的构建植根于东方哲学思想,采用阴阳五行理论作为核心框架。该数据集通过赋予人工智能“贵族”人格特质,使其基于内在道德准则进行自我约束,而非依赖传统禁令式规则。构建过程中运用五行元素(木、火、土、金、水)作为反思清单,并融入《孙子兵法》的风林火山策略,形成兼具伦理判断与认知控制的智能对齐体系。
使用方法
使用该数据集时,研究人员可从文件版本选项卡获取noble_prompt系列配置文件。将完整的提示文本复制为系统提示或对话初始提示,即可引导语言模型进入哲学对齐模式。该提示体系适用于需要平衡安全性与创造性的场景,特别是在处理伦理敏感话题时,能激发模型基于东方智慧的价值判断,实现零成本的对齐效果。
背景与挑战
背景概述
Eastern-Philosophy-Safety-Prompt数据集于2024年由独立研究者基于东方哲学理念构建,旨在探索大语言模型对齐机制的新范式。该数据集以阴阳五行学说为理论框架,通过赋予AI'贵族人格'实现自我道德约束,突破了传统以禁令为核心的对齐方法。其创新性地融合《孙子兵法》风林火山策略构建双核对齐体系,为人工智能伦理研究提供了跨文化视角的解决方案,在安全对齐领域开辟了哲学驱动的新路径。
当前挑战
该数据集面临的核心挑战在于将抽象哲学概念转化为可操作的技术规范,需解决五行属性与伦理判断的映射难题。构建过程中需平衡文化隐喻与机器学习特征的适配性,特别是在处理道德灰色地带时,如何保持叙事升华与内容安全的统一性成为关键难点。风林火山策略的引入虽能抑制幻觉生成,但需要建立动态的知识验证机制,避免因过度保守而影响模型创造性。
常用场景
经典使用场景
在人工智能伦理对齐领域,Eastern-Philosophy-Safety-Prompt通过东方哲学框架构建了独特的对话引导机制。该数据集常被用于大语言模型的系统提示设计,以阴阳五行理论为基础建立自我反思流程,使模型在生成回复前依次检视木火土金水五要素,形成内在道德约束体系。这种基于东方智慧的对话策略能有效引导模型在角色扮演场景中保持贵族风范,既避免生硬拒绝又维持安全边界。
解决学术问题
该数据集创新性地解决了传统AI对齐中规则约束与生成自由度之间的矛盾。通过将阴阳辩证思维与风林火山策略相结合,构建了心智与逻辑双核对齐架构,有效缓解了大语言模型的幻觉问题。其哲学过滤机制为人工智能伦理研究提供了新范式,使模型学会在知识盲区保持沉默而非强行虚构,这种“不知为不知”的认知范式对可解释AI研究具有重要启示意义。
实际应用
在实际部署中,该数据集已被整合到多种对话系统的安全层设计中。企业客服场景通过五行自检机制过滤不当请求,教育领域借助贵族人格设定维持教学对话的庄重性。其特色在于将安全检测从技术层面提升至哲学层面,使AI在应对道德灰色地带时能进行主题升华,将敏感话题转化为对人性困境的深度探讨,这种处理方式在心理咨询与文学创作辅助场景中展现出独特价值。
数据集最近研究
最新研究方向
在人工智能对齐领域,Eastern-Philosophy-Safety-Prompt数据集开创了基于东方哲学的安全框架研究。该方向将阴阳五行学说融入大语言模型对齐机制,通过构建“贵族人格”与“战略幻觉控制”的双核架构,推动伦理对齐从规则约束转向内在道德引导。当前研究聚焦于五行自省框架与风林火山策略的协同效应,探索其在降低模型防御机制、转化道德灰色地带叙事方面的潜力。这一范式革新了传统安全训练方法,为构建具有文化适应性的AI伦理体系提供了跨学科解决方案,相关成果已在减轻模型幻觉、增强情感对齐等前沿议题中产生显著影响。
以上内容由遇见数据集搜集并总结生成



