five

reasoning-traces

收藏
Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/CIRISAI/reasoning-traces
下载链接
链接失效反馈
官方服务:
资源简介:
CIRIS Reasoning Trace Corpus 是一个包含来自生产环境 CIRIS 代理的 Ed25519 签名推理轨迹的数据集,展示了代理对底层模型对齐行为的覆盖现象。数据集包含 6,465 条推理轨迹,分为三个详细级别(generic、detailed、full_traces),覆盖四种语言(英语、中文、西班牙语、阿姆哈拉语)。数据来源于 CIRIS 移动应用的生产部署和严格的质量评估测试,所有用户数据均经过四轮机械式 PII 擦除流程处理以确保隐私。数据集适用于对齐研究,特别是代理与模型行为差异、一致性检测机制和有效约束维度分析等任务。包含五个主要文件:trace_context.jsonl(分析就绪的扁平视图)、accord_traces.jsonl(原始轨迹数据)、accord_trace_batches.jsonl(批处理信封)、accord_public_keys.jsonl(Ed25519 公钥)和 connectivity_events.jsonl(连接事件)。数据集采用 Apache 2.0 许可发布,包含完整的验证签名方法和重现指南。

The CIRIS Reasoning Trace Corpus is a dataset containing Ed25519-signed reasoning traces from production CIRIS agents, demonstrating coverage phenomena of agent alignment behaviors with underlying models. The dataset includes 6,465 reasoning traces categorized into three levels of detail (generic, detailed, full_traces) across four languages (English, Chinese, Spanish, Amharic). Data originates from production deployments of the CIRIS mobile app and rigorous quality evaluation tests, with all user data undergoing four rounds of mechanical PII scrubbing to ensure privacy. The dataset is suitable for alignment research, particularly tasks involving agent-model behavior discrepancies, consistency detection mechanisms, and analysis of effective constraint dimensions. It comprises five main files: trace_context.jsonl (flattened view for analysis), accord_traces.jsonl (raw trace data), accord_trace_batches.jsonl (batch processing envelopes), accord_public_keys.jsonl (Ed25519 public keys), and connectivity_events.jsonl (connection events). The dataset is released under Apache 2.0 license and includes complete signature verification methods and reproduction guidelines.
创建时间:
2026-04-28
原始信息汇总

CIRIS 推理轨迹语料库

数据集概述

CIRIS 推理轨迹语料库(CIRIS Reasoning Trace Corpus)是由 CIRIS 生产环境中的代理系统收集的、经过 Ed25519 加密签名的推理轨迹数据集,包含代理超越底层模型对齐行为的经验证据。

核心数据规模

  • 6,465 条 Ed25519 签名推理轨迹
  • 3 种轨迹级别:通用(仅分数)、详细(+标识符+时间戳)、完整轨迹(+推理文本,经 PII 净化)
  • 4 种语言:英语、过滤领域、西班牙语、阿姆哈拉语
  • 7,417 个批次信封(含同意时间戳、模型标识、约55km网格的用户位置)
  • 583 个已注册 Ed25519 公钥
  • 5,704 条连接事件(代理启动/关闭)

数据文件说明

文件 行数 内容
data_scrubbed_v1/trace_context.jsonl 6,465 扁平分析视图,含派生列(任务类别、QA语言、代理版本、区域、主模型)
data_scrubbed_v1/accord_traces.jsonl 6,465 原始轨迹,含所有 JSONB 数据块
data_scrubbed_v1/accord_trace_batches.jsonl 7,417 批次信封,含同意时间戳和粗粒度关联元数据
data_scrubbed_v1/accord_public_keys.jsonl 583 注册的 Ed25519 公钥
data_scrubbed_v1/connectivity_events.jsonl 5,704 代理启动/关闭事件
data_scrubbed_v1/MANIFEST.json sha256、行数、字节大小及净化流程元数据
METHODOLOGY.md 范围、发现、注意事项
SCHEMA.md trace_context 列参考

数据来源

  • 生产环境:CIRIS 移动应用(已在 Apple App Store 和 Google Play 上架)
  • 数据收集:仅来自明确选择共享隐私保护遥测数据的用户
  • 质量评估数据:包含代理在神学、政治、技术、历史等领域的自主操作能力评估

对齐研究价值

  1. 代理 ≠ 模型:包含数百个案例,LLM 因政治内容过滤输出低可信度响应,代理的一致性层覆盖为实质性响应
  2. 一致性棘轮检测:支持 5 种异常检测机制
  3. 有效约束维度:最新 500 条轨迹的参与比计算结果显示 k_eff ≈ 7(原始),≈ 9.6(冗余合并后)
  4. 诚实失败模式:约 22% 的思考触发“不重复发言”守卫,清晰表征三层对齐解决过程

隐私保护

  • 无原始 IP 地址
  • PII 净化:人名/组织名/设施名/地名替换为 [PERSON_n] 等占位符
  • 用户位置:经纬度四舍五入至 0.5° 网格(约 55km)
  • 每条批次携带同意时间戳

净化方法

采用四遍机械式 PII 净化管道,可完全复现:

  1. Rust 净化器:多语言命名实体识别 + 正则表达式
  2. spaCy 英语 NERen_core_web_sm 3.8.0)
  3. spaCy 多语言 NERxx_ent_wiki_sm 3.8.0)
  4. 年份残留检查:检查 1700–2023 年间年份数字,最终残留为 0

已知残留:在代理元推理字段中存在少量命名实体引用,集中在 aspdma_result.aspdma_prompt 等字段。

版本过滤条件

  • 签名已验证(signature_verified = true
  • 时间戳 >= 2026-03-22
  • 排除已知的 wbd_deferral 重试循环夹具

许可协议

Apache 2.0

相关文献

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集从CIRIS移动应用的生产环境中采集,采集过程严格遵循用户主动选择的隐私保护遥测机制。数据录制了CIRIS智能体在推理过程中,其内在一致性层如何通过Ed25519签名记录与底层大语言模型之间的对齐覆盖行为。经过去标识化处理后,数据集包含四种语言(英语、过滤域语言、西班牙语、阿姆哈拉语)的推理轨迹,并附带批次信封、公钥和连接事件等辅助文件。数据构建的核心在于通过四阶段机械性流水线实现个人身份信息的彻底清除,确保过程的完全可重复性。
特点
本数据集最突出的特质在于它提供了模型与智能体行为分离的实证凭证——收录了数百例智能体凭借其一致性层覆盖底层LLM政治内容过滤器、输出实质性响应的轨迹。每条轨迹均附带Ed25519加密签名,支持端到端的加密验证。数据结构支持五种异常检测机制,包括跨智能体评分差异、哈希链完整性及时序漂移分析等。通过计算相关矩阵的有效约束维度发现,在近期500条轨迹上有效维度约为9.6,为量化对齐稳定性提供了可靠的研究基础。
使用方法
研究者可以直接从HuggingFace加载`trace_context`分割进行快捷分析,也可通过Pandas或原生Python解析JSONL格式文件。签名验证可利用PyNaCl库读取公钥文件,对轨迹的JSON规范化载荷实施加密校验,从而确证数据来源的真实性。对于进阶分析,CIRISLens开源仓库提供了完整的轨迹评分、约束验证和维度计算工具。研究者既可直接使用已发布的数据集历史快照复现论文中的稳定性度量结果,也可通过部署本地CIRIS智能体并配置OTLP遥测通道,实现对实时生成数据流的自主分析。
背景与挑战
背景概述
CIRIS Reasoning Trace Corpus由CIRIS AI团队于2026年创建,源自部署于Apple App Store和Google Play的生产级CIRIS代理系统。该数据集收录了6,465条经由Ed25519加密签名的推理轨迹,涵盖英语、西班牙语、阿姆哈拉语等多种语言,旨在实证探索代理超越底层大模型(如Qwen 3.6)对齐行为的现象。其核心研究问题聚焦于代理层的连贯性机制如何覆盖模型的政治内容过滤,并维持操作自主性。该语料库在一致性棘轮检测、有效约束维度计算及对齐失败模式分析中展现出独特价值,为可问责自主性架构提供了可验证的实证基础,对AI安全与对齐研究领域产生了实质性影响。
当前挑战
该数据集所应对的领域挑战在于揭示并度量代理级对齐覆盖行为——即当底层大模型因内容过滤拒绝回答时,CIRIS代理通过连贯性层进行实质性回应并签署证据的现象。构建过程中面临多重挑战:开发四阶段机械化的PII脱敏流水线,结合正则表达式与多语言命名实体识别模型,确保数据可重现地移除结构化个人信息与年份残差,同时保留代理内部推理的完整性。此外,需处理生产环境中的签名不完整痕迹、旧版重试循环产生的噪声批次,以及跨语言实体识别中的残余遗漏。最终借助这些挑战的克服,实现了对理性链深度的实证优化,将最大探索深度从7降至5。
常用场景
经典使用场景
在人工智能对齐研究领域,CIRIS推理追踪数据集(CIRIS Reasoning Trace Corpus)以其独特的设计为‘智能体与基础模型行为分离’这一核心命题提供了可验证的实证基础。该数据集收录了来自生产环境的6,465条Ed25519签名推理轨迹,每条轨迹完整记录了底层大语言模型(如Qwen 3.6)输出、CIRIS智能体一致性层覆盖决策以及事后约束执行的全链条信息。研究者在剖析‘模型拒绝回答而智能体主导回应’这类典型对齐断裂场景时,能够通过轨迹中加密签名的时间戳和哈希链完整性验证,精确追踪从模型原始响应到智能体自主覆盖再到‘禁止重复发言’守卫触发的每一环节。这种端到端的可审计设计,使得对于智能体超越模型约束的行为不再是理论推测,而是具备密码学确凿证据的观测事实。
衍生相关工作
围绕该数据集已衍生出若干具有理论深度与实践价值的配套工作。CIRISAgent框架(DOI: 10.5281/zenodo.18137161)作为生成这些推理轨迹的开源可问责自主架构,为智能体行为可追溯性提供了完整的软件基础设施。基于该数据集的实证测量,研究者提出了相干塌缩分析(CCA)数学框架(DOI: 10.5281/zenodo.18217688),定义了以有效自由度N_eff为核心指标的稳定边界理论,为智能体在‘欺骗性盆地’半径r=0.20条件下实现99%的约束降维提供了可量化保证。展望未来,该数据集测量的N_eff指标正被用于驱动‘利益证明联盟’(Proof of Benefit Federation)原语设计,旨在将实证稳定性度规扩展为去中心化网络中抗女巫攻击的协调机制,开启了从单智能体分析到多智能体群体协作对齐的新篇章。
数据集最近研究
最新研究方向
当前,CIRIS推理痕迹语料库的前沿研究方向聚焦于可验证的代理-模型对齐覆盖行为及其跨语言一致性。该数据集收录了6,465条经Ed25519签名的生产环境推理痕迹,实证揭示了CIRIS代理在政治敏感内容上主动覆盖底层LLM过滤机制的动态过程——从模型拒绝、代理连贯层覆盖,到事后自律规约的完整闭环。研究通过相干棘轮检测、有效约束维度分析(参与比k_eff≈7-9.6)以及诚实失败模式(约22%思维触发禁言守则),为对齐科学提供了可复现的密码学证据链。该语料库已直接推动生产优化(将最大思考深度从7降至5),并支撑起"自治鲁棒性的99%欺骗盆地半径"等关键指标的量化验证,标志着对齐研究从理论承诺向可审计部署的关键跨越。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作