ClarusC64

Hugging Face2026-01-13 更新2026-01-14 收录

下载链接：

https://huggingface.co/datasets/ClarusC64/ClarusC64

下载链接

链接失效反馈

官方服务：

资源简介：

Clarus Coherence Dataset 0.1.0是一个早期访问数据集，专注于长视野代理轨迹的评估，特别关注状态转换中的一致性保留和漂移。数据集记录了多步代理轨迹，并为每个状态转换分配了一致性评分，有助于揭示标准数据集可能忽略的漂移、不稳定性和奖励黑客问题。数据集包含轨迹ID、任务ID、步骤索引、初始意图、代理动作、环境响应、一致性评分、聚合一致性评分、通过/失败标签和失败注释等字段。适用于代理评估、回归测试、训练稳定性聚焦代理和比较模型等用途。数据集目前处于早期阶段，任务多样性有限，样本量较小，且一致性度量仍在不断进化中。

创建时间：

2026-01-12

原始信息汇总

Clarus Coherence Dataset 0.1.0 数据集概述

数据集基本信息

数据集名称：Clarus Coherence Dataset
版本：0.1.0
许可证：other（研究用途允许，商业用途需协议，需署名）
语言：英语 (en)
任务类别：强化学习 (reinforcement-learning)、其他 (other)
规模类别：小型 (small)
创建者/作者：Mahesi
发布年份：2026
联系方式：team@loopwell.ai

数据集描述与目的

核心描述：用于长视野智能体轨迹的早期访问数据集，评估其在状态转换过程中的连贯性保持与漂移。
主要目的：捕捉多步智能体轨迹，并在每个状态转换处分配连贯性分数，旨在揭示标准数据集可能遗漏的漂移、不稳定性和奖励黑客问题。
设计范围：范围有意限定得较为狭窄。

数据集内容

数据内容：包含多步智能体轨迹，按步骤记录，每个转换都进行连贯性评分，并根据漂移情况标注通过/失败标签。
用途：
- 评估智能体在长视野任务上的表现。
- 跨模型版本的回归测试。
- 训练专注于稳定性的智能体。
- 在相同任务下比较不同模型。

数据格式与特征

数据单位：每一行代表轨迹中的一个步骤。
特征列：
- trajectory_id (string)：轨迹标识符。
- task_id (string)：任务标识符。
- step_index (int32)：步骤索引。
- initial_intent (string)：初始意图。
- agent_action (string)：智能体动作。
- environment_response (string)：环境响应。
- coherence_score (float32)：连贯性分数。
- aggregate_coherence_score (float32)：聚合连贯性分数。
- pass_fail_label (string)：通过/失败标签。
- failure_annotation (string)：失败标注。

数据划分

划分名称：train
样本数量：10

连贯性评分

评分依据：反映跨步骤的结构对齐情况。
评估方面：
- 意图保持
- 状态一致性
- 约束遵守
- 早期漂移检测

局限性

早期阶段发布。
任务多样性有限。
0.1.0版本样本量小。
连贯性度量标准仍在演进中。

引用信息

@dataset{clarus_coherence_0_1_0, title = {Clarus Coherence Dataset 0.1.0}, author = {Mahesi}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在强化学习与智能体行为分析领域，ClarusC64数据集的构建聚焦于长时程任务中智能体轨迹的连贯性评估。该数据集通过记录多步智能体交互轨迹，逐步采集每一步的状态转换信息，并基于结构对齐原则对每一步的连贯性进行量化评分。具体而言，每条轨迹包含初始意图、智能体动作、环境响应等关键字段，辅以每一步的连贯性分数及整体聚合分数，从而系统化地捕捉智能体在长期任务中的行为稳定性与一致性。

特点

该数据集的核心特点在于其专注于长时程智能体轨迹的连贯性度量，能够揭示标准评估中常被忽略的漂移、不稳定及奖励黑客等问题。数据以步骤为单位精细记录，涵盖意图保持、状态一致性、约束遵循等多维评分指标，并提供了通过失败标注的详细分析维度。尽管当前版本样本规模有限且任务多样性尚待扩展，但其结构化设计为智能体稳定性研究提供了高精度的评估框架。

使用方法

ClarusC64数据集适用于长时程任务中智能体行为的评估与比较，可用于模型版本间的回归测试、稳定性导向的智能体训练，以及在相同任务条件下不同模型的性能对比。研究人员可依据轨迹标识与任务标识提取特定智能体的完整交互序列，结合连贯性分数与通过失败标签分析行为漂移模式。该数据集支持以步骤为单位的细粒度分析，便于早期检测智能体在状态转换中的一致性衰减，为强化学习系统的稳健性优化提供实证基础。

背景与挑战

背景概述

在强化学习与智能体行为评估领域，长期任务中的行为一致性与稳定性是核心研究议题。ClarusC64数据集由Mahesi团队于2026年创建，旨在系统化地捕捉智能体在长视野任务中的轨迹数据，并评估其在状态转换过程中的连贯性保持与漂移现象。该数据集聚焦于揭示传统评估方法可能忽略的智能体行为不稳定、奖励黑客等问题，为智能体在复杂环境中的可靠性研究提供了结构化数据支持，对推动强化学习模型的稳健性评估具有重要影响。

当前挑战

该数据集致力于解决长视野任务中智能体行为连贯性评估的挑战，具体包括如何量化智能体在多步决策中的意图保持、状态一致性与约束遵循程度，以及如何早期检测行为漂移。在构建过程中，面临的挑战涵盖数据采集的复杂性，如长轨迹的完整记录与标注；连贯性评分指标的演化与标准化，需平衡结构对齐与任务多样性；以及早期版本样本规模有限、任务类型较窄所带来的泛化能力限制。

常用场景

经典使用场景

在强化学习与智能体行为分析领域，ClarusC64数据集为评估长时程任务中智能体行为的连贯性提供了关键资源。该数据集通过记录多步智能体轨迹，并在每个状态转换点标注连贯性分数，使得研究者能够深入分析智能体在复杂任务执行过程中意图保持、状态一致性与约束遵循的表现。其经典使用场景集中于智能体稳定性评估，特别是在需要长期规划与决策的仿真环境中，用于检测智能体行为是否出现漂移或奖励黑客现象，从而弥补传统数据集在长期稳定性度量上的不足。

实际应用

在实际应用层面，ClarusC64数据集被广泛应用于智能体系统的回归测试与版本比较。开发团队可利用该数据集在不同模型迭代间进行稳定性评估，确保智能体在长时程任务中保持行为一致性。此外，该数据集还可用于训练专注于稳定性优化的智能体，特别是在自动驾驶、机器人控制与游戏AI等需要长期决策的领域，帮助系统避免因行为漂移导致的性能下降或安全风险，从而提升智能体在真实复杂环境中的可靠部署能力。

衍生相关工作

围绕ClarusC64数据集，已衍生出多项关注智能体行为连贯性的经典研究工作。这些工作主要集中于开发新型连贯性度量算法、构建基于连贯性奖励的强化学习框架，以及设计长时程任务中智能体漂移检测机制。部分研究进一步将该数据集的评估范式扩展到多智能体协作与元强化学习场景，探索智能体在动态环境中的意图保持与约束遵循能力。这些衍生工作不仅丰富了智能体稳定性研究的方法论，也为未来构建更可靠、可解释的智能系统提供了理论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集