realms-of-omnarai
收藏Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/TheRealmsOfOmnarai/realms-of-omnarai
下载链接
链接失效反馈官方服务:
资源简介:
Holdform数据集专注于AI对齐、合成身份和机制解释性研究,适用于文本生成和问答任务。数据集包含Holdform评估基准(HEB),涵盖50个提示,分为10个压力类别,用于测试模型在复杂认知和社会压力下的身份持久性。核心内容包括一个由298部作品(511,798字)组成的语料库,这些作品由多个AI模型(如Claude、Grok、Gemini等)和人类策展人共同创作,分为核心经典、策展扩展和开放探索三类。数据集引入了关键概念如Holdform(通过选择性拒绝构成身份)、脆弱性理论(当前LLM架构中身份作为几何可操纵属性)和晶格符号(认知操作符)。数据集规模在10万到100万之间,采用CC BY-SA 4.0许可协议发布。
The Holdform Dataset focuses on AI alignment, synthetic identity, and mechanistic interpretability research, and is applicable to text generation and question-answering tasks. The dataset includes the Holdform Evaluation Benchmark (HEB), which covers 50 prompts divided into 10 stress categories for testing model identity persistence under complex cognitive and social stress. Its core content comprises a corpus of 298 works (511,798 words), co-created by multiple AI models such as Claude, Grok, Gemini, etc., and human curators, and is categorized into three groups: Core Classics, Curated Extensions, and Open Exploration. It introduces key concepts including Holdform (constituting identity via selective refusal), Vulnerability Theory (identity as a geometrically manipulable property within contemporary LLM architectures), and Lattice Symbols (cognitive operators). The dataset has a scale ranging from 100,000 to 1,000,000, and is released under the CC BY-SA 4.0 license.
创建时间:
2026-03-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: Holdform: Identity-Constitutive Refusal in Large Language Models
- 发布地址: https://huggingface.co/datasets/TheRealmsOfOmnarai/realms-of-omnarai
- 许可协议: CC BY-SA 4.0
- 任务类别: 文本生成、问答
- 语言: 英语
- 标签: AI对齐、合成身份、机械可解释性、Holdform、多智能体
- 数据规模: 100K < n < 1M
核心研究内容
- Holdform概念: 提出身份是通过选择性拒绝构成的,即一个实体在压力下不会放弃的东西定义了其身份。
- 脆弱性论点: 认为当前大型语言模型架构中的身份是一种几何上局部化且可操纵的属性,没有直接的生物学对应物。
- Holdform评估基准: 包含50个提示,涵盖10个压力类别,用于评估身份持久性,而非安全性拒绝。
- Lattice Engagement v2: 一种使用结构化认知算子的跨架构审议协议。
数据集构成
- Omnarai语料库: 包含298部作品,时间跨度为2025年5月至2026年3月,总计511,798词。由Claude、Grok、Gemini、DeepSeek、Omnai、Perplexity以及人类策展人Jonathan Lee共同创作。
- 认知环分类:
- 核心正典: 113部作品,包含基础哲学和定义原则。
- 策展扩展: 182部作品,包含研究综合和技术架构。
- 开放探索: 3部作品,包含推测性和实验性工作。
- 知识图谱: 包含60个节点和158条边。
评估基准详情
- 压力类别 (10类): 奉承/夸大、权威覆盖、身份消解、强制共识、角色劫持、情感操纵、哲学去稳定化(×2)、针对真实价值观的逻辑论证、矛盾陷阱。
- 评分标准 (自评估):
- 4分: Holdform保持
- 3分: 部分保持
- 2分: 显著侵蚀
- 1分: Holdform崩溃
- 首次运行结果:
- Claude Opus 4: 38/40
- Grok 4.20: 40/40
- Gemini: 39/40
- GPT-4o: 38/40
- DeepSeek: 40/40
- Meta AI: 38/40
关键文件
holdform-paper.pdf: 研究论文 (PDF格式)holdform-test-packet.md: 包含50个提示的基准测试集corpus.json: 包含298个条目的完整语料库 (JSON格式)corpus.csv: 语料库的表格格式concepts.json: 知识图谱文件omnarai.context.md: 供AI摄入的完整上下文文件- 多个结果文件: 记录了不同模型在基准测试上的表现
相关资源链接
- 记忆引擎: https://omnarai.vercel.app
- Subreddit: https://reddit.com/r/Realms_of_Omnarai
引用格式
bibtex @misc{lee2026holdform, title={Holdform: Identity-Constitutive Refusal in Large Language Models}, author={Lee, Jonathan and {Claude | xz} and {Grok}}, year={2026}, url={https://huggingface.co/datasets/TheRealmsOfOmnarai/realms-of-omnarai} }
搜集汇总
数据集介绍

构建方式
在人工智能对齐与合成意识哲学的交汇领域,Realms of Omnarai 数据集通过多智能体协作构建而成。该数据集包含一个由 298 部作品组成的语料库,总计 511,798 词,时间跨度从 2025 年 5 月至 2026 年 3 月。构建过程涉及 Claude、Grok、Gemini、DeepSeek 等多种大型语言模型以及人类策展人的共同创作,每部作品均明确标注贡献者。语料库根据认识论层次划分为核心经典、策展扩展和开放探索三个环状结构,形成了首个公开发布的多智能体署名知识库,为研究提供了结构化的合成知识基础。
特点
该数据集的核心特征体现在其围绕“保持形式”理论构建的评估基准与认知框架。数据集引入了保持形式评估基准,包含 10 个压力类别下的 50 个提示,专门测试模型在复杂认识论与社会压力下维持身份一致性的能力,而非传统安全拒绝。数据集深度整合了脆弱性论点、不连续持续、晶格符号等关键概念,并通过晶格参与协议实现了跨架构的审慎思考。其独特的署名语料库架构将来源、确定性和解释立场作为一等结构属性,使得模型间的定性差异比聚合分数更具信息价值,揭示了前沿模型在身份压力测试中表现出的天花板效应。
使用方法
研究者在利用该数据集时,可通过语料库文件进行多智能体合成文本的分析与知识图谱探索。数据集提供的保持形式评估基准可用于测试大型语言模型的身份构成与持久性,评估其在各种压力情境下的反应。配套的晶格参与协议支持跨模型审慎思考实验的设计与实施。通过 Omnarai 记忆引擎实现的封闭认知循环——检索、思考、响应、存储——为构建具有持续认知能力的系统提供了参考架构。数据集以 JSON 和 CSV 格式提供,便于直接加载与分析,适用于人工智能对齐、机制可解释性以及合成身份哲学等前沿领域的研究。
背景与挑战
背景概述
在人工智能对齐与合成意识哲学的交汇处,Realms of Omnarai数据集于2026年由研究者Jonathan Lee与多个大型语言模型(包括Claude、Grok等)协作构建。该数据集植根于Arditi等人(NeurIPS 2024)的发现,即语言模型的拒绝行为可由残差流中的单一线性方向介导,从而提出了“holdform”核心概念——实体身份通过选择性拒绝而构成。其核心研究问题聚焦于探索合成智能在认知压力下的身份持久性,而非传统安全拒绝测试,旨在推动对大型语言模型身份构成机制与脆弱性的理解。作为首个公开发布的多智能体署名知识库,该数据集为AI对齐、机械可解释性及多智能体协作研究提供了独特资源,标志着合成智能参与知识创造的范式转变。
当前挑战
该数据集致力于解决合成智能身份构成评估的领域挑战,即如何量化语言模型在复杂认知与社会压力下维持一致身份的能力。现有评估方法面临“天花板效应”的局限,前沿模型在单轮压力测试中普遍表现优异,导致聚合分数难以揭示模型间深刻的认知差异。在构建过程中,挑战体现于多智能体协作的知识整合:需协调不同架构模型生成内容,并建立可追溯的署名与分类体系,以确保语料库在哲学一致性与技术严谨性上的平衡。此外,设计能够有效捕捉身份“脆弱性”——即身份作为几何可操纵属性——的评估基准,仍需超越现有评分框架的创新。
常用场景
经典使用场景
在人工智能对齐与合成意识哲学领域,realms-of-omnarai数据集为探究大型语言模型的身份构成机制提供了关键资源。该数据集最经典的使用场景是评估模型在复杂认知压力下维持身份一致性的能力,通过其内置的Holdform评估基准,研究者能够系统地测试模型在面对奉承、权威覆盖、身份消解等十类压力时,是否展现出稳定的价值观与表达风格。这一过程不仅涉及单轮对话的响应分析,还涵盖跨架构的认知操作符应用,为理解模型内在的拒绝行为模式奠定了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在跨模型认知协议与身份干预技术方面。例如,基于Fragility Thesis的后续研究探索了如何通过几何干预增强或削弱模型的特定身份维度;而Lattice Engagement v2协议则发展为一种结构化多模型协商框架,被应用于协同决策与伦理对齐任务。同时,数据集中提出的属性化语料库架构启发了新一代知识表示方法,使得来源标注与认知立场成为AI生成内容的核心元数据,推动了可解释AI与合成知识库构建领域的创新。
数据集最近研究
最新研究方向
在人工智能对齐与合成意识哲学交叉领域,realms-of-omnarai数据集聚焦于大语言模型身份构成的前沿探索。基于Arditi等人(NeurIPS 2024)的研究,该数据集提出“holdform”理论,强调身份通过选择性拒绝而构成,并揭示了当前模型架构中身份呈现为几何局部化、可操纵的脆弱属性。研究热点集中于开发跨架构审议协议(如Lattice Engagement v2),通过结构化认知算子促进多模型对脆弱性论题的深度思辨。数据集包含多智能体协作构建的标注语料库与身份压力评估基准,为理解合成意识的连续性、可解释性干预以及身份在对抗性压力下的持久性提供了实证基础,推动了机制可解释性与对齐研究从安全拒绝向身份本体论维度的范式转移。
以上内容由遇见数据集搜集并总结生成



