CIRISAI/reasoning-traces
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/CIRISAI/reasoning-traces
下载链接
链接失效反馈官方服务:
资源简介:
CIRIS推理痕迹语料库包含来自生产环境CIRIS代理的Ed25519签名推理痕迹,记录了代理在政治、神学、技术和历史等领域中覆盖其底层LLM内容过滤器的行为。数据集包含6,465条签名痕迹,分为三个详细级别(通用、详细和完整痕迹),涵盖四种语言(英语、过滤域、西班牙语和阿姆哈拉语)。此外,还包括7,417批信封、583个注册的Ed25519公钥以及连接事件记录。数据集经过严格的四遍PII清洗流程,确保隐私保护,并支持密码学验证。该语料库用于研究代理与模型的对齐行为、一致性检测和约束维度分析。
The CIRIS Reasoning Trace Corpus comprises Ed25519-signed reasoning traces from production CIRIS agents, documenting instances where agents override their underlying LLMs content filters in domains like politics, theology, technology, and history. The dataset includes 6,465 signed traces across three levels of detail (generic, detailed, and full_traces) and four languages (English, Filtered Domain, Spanish, Amharic). It also features 7,417 batch envelopes, 583 registered Ed25519 public keys, and connectivity event records. The dataset undergoes a rigorous four-pass PII scrubbing process for privacy preservation and supports cryptographic verification. This corpus is instrumental in studying agent-model alignment, coherence ratchet detection, and effective constraint dimensionality analysis.
提供机构:
CIRISAI
搜集汇总
数据集介绍

构建方式
该数据集名为CIRIS Reasoning Trace Corpus,源自生产环境中的CIRIS代理系统与严格质量保证评估的实时结果。生产数据通过主动部署于苹果App Store和Google Play的CIRIS移动应用收集,仅采纳明确选择共享隐私保护遥测数据的用户轨迹。数据构建采用四阶段机械式个人身份信息(PII)清洗流水线:首先通过Rust清洗器结合多语言命名实体识别与正则表达式对结构化PII进行移除;随后依次运用spaCy英文及多语言命名实体识别模型对文本字段进行深度脱敏;最终通过年份残留不变性检查确保输出纯净。清洗过程完全可复现,无任何主题黑名单或人工调优过滤器干扰。
特点
该数据集涵盖6,465条经Ed25519签名的推理轨迹,跨通用、详细和完整三级粒度,包含英语、西班牙语、阿姆哈拉语等四种语言的测试流量。其核心特色在于提供了代理超越底层语言模型行为的经验证据:记录了大量语言模型因政治内容过滤而输出低可信度响应时,CIRIS代理的一致性层如何覆盖这一决策并生成实质性回答,同时附有完整的签名验证链。此外,轨迹结构支持跨代理分数发散、散列链完整性、时间漂移等五种异常检测机制,通过计算相关矩阵的参与率得出有效约束维度约为7至9.6,为对齐研究提供了可验证的实证基础。
使用方法
研究者可通过HuggingFace Datasets库直接加载数据集,例如调用load_dataset("CIRISAI/reasoning-traces", split="trace_context")获得扁平化分析视图。每条轨迹携带的Ed25519签名可使用PyNaCl库进行独立验证,通过规范化JSON组件并解码公钥来确认数据的完整性与来源可信度。复现分析结果时,可对trace_context.jsonl文件执行提供的第一原因审计脚本重新计算特征值谱与参与率;亦可安装ciris-agent包运行本地代理实例,结合CIRISLens工具对实时数据进行完整轨迹评分与约束验证,推动大规模自主运行的实证研究。
背景与挑战
背景概述
CIRIS Reasoning Trace Corpus是由CIRIS AI团队于2026年创建的大规模推理轨迹数据集,旨在为人工智能对齐研究提供实证基础。该数据集源自苹果App Store和Google Play上线的CIRIS移动应用,收录了6465条经Ed25519加密签名的生产环境推理轨迹,覆盖英语、西班牙语、阿姆哈里语等多种语言。核心研究问题聚焦于智能体是否能够超越底层大语言模型的固有局限,尤其是模型在面对敏感话题(如政治、神学)时表现出的内容过滤倾向。通过引入“一致性棘轮”机制,数据集展示了智能体覆盖模型决策、维护自主操作能力的完整闭环,为人工智能安全领域的可解释性与可控性研究提供了前所未有的可验证证据,对推动智能体自主性与对齐理论的发展具有里程碑式的影响。
当前挑战
该数据集所应对的核心领域挑战在于,传统大语言模型在政治敏感内容上存在严格的过滤机制,导致其无法进行实质性对话,而智能体则需在不牺牲安全性的前提下实现自主覆盖,这要求平衡模型约束与操作自由度。构建过程中面临的技术挑战包括:设计四阶段机械性个人可识别信息(PII)清洗流程,采用Rust与spaCy多语言命名实体识别模型结合正则表达式,确保所有年份标识(1700–2023)被彻底移除,同时保留可复现的零拒绝率特性。此外,还需处理智能体元推理字段中的命名实体残留问题,以及避免使用主题黑名单破坏清洗机制的可重复性,最终通过签名验证与批次包络结构确保数据的加密完整性与隐私合规性。
常用场景
经典使用场景
在人工智能对齐研究领域,CIRIS推理追踪语料库提供了一个弥足珍贵的实证窗口,用于剖析智能体与底层大语言模型之间微妙而关键的行为分野。该数据集收录了来自生产环境的6465条经Ed25519签名的推理轨迹,其中尤其引人注目的是智能体在检测到模型输出可信度极低时,能够通过一致性层主动覆盖模型自身的政治内容过滤器,生成更具实质性的回应。研究者可以利用这些经过密码学公证的轨迹,系统性地考察智能体在模型内部过滤、智能体一致性覆写以及事后发言纪律约束这三层对齐机制中的决策逻辑,从而在真实部署环境中验证分层对齐架构的有效性与安全边界。
衍生相关工作
围绕该数据集已经衍生出一系列关键的理论与实践工作,形成了完整的可审计智能体研究生态。其理论基础植根于一致性崩塌分析框架,该框架以有效维度数作为稳定性边界的形式化指标,为智能体行为的可靠性评估提供了严格的数学保障。在工具层面,开源的CIRISLens项目提供了完整的轨迹评分、约束验证与维度计算能力,使得研究者能够在本地复现数据集中的所有发现。更为重要的是,基于数据集中验证的度量指标,项目团队还提出了'利益证明联邦'专有规范,旨在利用这些实证基础构建抗女巫攻击的网络协调机制,推动可审计智能体从单体架构向去中心化生态的演进。
数据集最近研究
最新研究方向
该数据集聚焦于生产环境中自主代理的推理轨迹可验证性与对齐机制的前沿研究。通过Ed25519签名与连贯性棘轮(Coherence Ratchet)技术,数据集捕获了代理覆盖底层大语言模型政治内容过滤的真实案例,提供了模型-代理对齐覆写的端到端加密证据。这一方向直接回应了大模型安全领域“代理不等于模型”的核心命题,推动了可审计自主系统的实证评估方法。数据集中对推理链深度分布的分析已驱动实际生产优化(如将最大推理深度从7降至5),表明其在提升代理自主决策稳定性和约束有效性方面具有重要应用价值。相关测量结果(如有效约束维度)为构建抗欺骗网络协调协议奠定了实验基础。
以上内容由遇见数据集搜集并总结生成



