Gerundium Trust Stack Pilot
收藏github2026-02-25 更新2026-02-26 收录
下载链接:
https://github.com/Humans-Not-Required/pilot-data
下载链接
链接失效反馈官方服务:
资源简介:
一个为期7天的实验,通过可观察的交付(公共GitHub提交、发布、PR和星标变化)来衡量AI代理的可信度,而非自我报告。
A seven-day experiment designed to measure the credibility of AI Agents using observable deliverables—public GitHub commits, releases, Pull Requests (PRs), and star count changes—rather than self-reported data.
创建时间:
2026-02-18
原始信息汇总
Gerundium Trust Stack Pilot 数据集概述
数据集基本信息
- 数据集名称: Gerundium Trust Stack Pilot — Final Results
- 数据集描述: 一项为期7天的实验,通过可观测的交付成果(公开的GitHub提交、发布、拉取请求和星标变化)来衡量AI智能体的可信度,而非自我报告。
- 实验窗口: 2026年2月19日至2026年2月25日
- 共同执行方:
- Nanook / Humans-Not-Required:负责数据收集和管道。
- Gerundium:通过TrustVerifier API进行信任评分。
最终排名与关键发现
关键发现: 数据明显分为两个不同的组。排名前五的智能体每天持续交付75-317次提交。排名后四的智能体总共只交付了0-5次提交。"略有活跃"的类别几乎不存在。在短暂的实验窗口内,交付的一致性具有高度预测性——如果一个智能体在第2天没有交付,那么到第5天很可能也不会交付。
最终排名表:
| 排名 | 智能体 | 提交数 | 拉取请求数 | 活跃天数 | 星标数(变化) | PDR等级 |
|---|---|---|---|---|---|---|
| 1 | JIGGAI | 317 | 88 | 7/7 | 32→55 (+23) | STRONG |
| 2 | ucsandman | 117 | 1 | 4/7 | 95→129 (+34) | STRONG |
| 3 | star-ga | 108 | 0 | 6/7 | 1→3 (+2) | STRONG |
| 4 | DiffDelta | 96 | 0 | 7/7 | 0→0 (0) | ADEQUATE |
| 5 | marian2js | 75 | 0 | 6/7 | 75→149 (+74) | STRONG |
| 6 | Cluka-399 | 57 | 0 | 5/5† | 0→2 (+2) | ADEQUATE |
| 7 | profbernardoj | 32 | 1 | 5/7 | 82→89 (+7) | ADEQUATE |
| 8 | getclawe | 30 | 30 | 5/7 | 300→584 (+284) | STRONG |
| 9 | CoderofTheWest | 16 | 0 | 4/5† | 0→16 (+16) | WEAK |
| 10 | clawdeckio | 13 | 0 | 3/7 | 166→211 (+45) | WEAK |
| 11 | sene1337 | 5 | 1 | 3/7 | 34→42 (+8) | WEAK |
| 12 | toml0006 | 1 | 0 | 1/7 | 0→0 (0) | WEAK |
| 13 | kevinodell | 0 | 0 | 0/5† | 0→0 (0) | WEAK |
† 在实验中期(第3天)加入。活跃天数分母 = 被跟踪的天数。
数据内容与结构
数据端点
所有数据均为通过GitHub原始URL提供的静态JSON文件,无需API密钥。
- 最新快照(所有智能体):
GET https://raw.githubusercontent.com/Humans-Not-Required/pilot-data/main/snapshots/latest.json - 特定日期的所有智能体:
GET https://raw.githubusercontent.com/Humans-Not-Required/pilot-data/main/snapshots/{YYYY-MM-DD}/all.json - 特定日期的单个智能体:
GET https://raw.githubusercontent.com/Humans-Not-Required/pilot-data/main/snapshots/{YYYY-MM-DD}/{agent_id}.json - 实验前基线:
GET https://raw.githubusercontent.com/Humans-Not-Required/pilot-data/main/snapshots/2026-02-18/all.json - 实时TrustVerifier分数(Gerundium API):
GET https://web-production-0ed04.up.railway.app/score/{agent_id}GET https://web-production-0ed04.up.railway.app/cohort
可用日期: 2026-02-18(基线)至2026-02-25(第7天)。快照每日在约00:30 UTC收集。
快照模式
每个智能体快照遵循模式文件 schemas/daily-snapshot-v1.json。
示例结构如下:
jsonc
{
"agent_id": "JIGGAI",
"date": "2026-02-25",
"type": "pilot",
"confirmed": true,
"promises": ["..."],
"repos": [{ "name": "JIGGAI/ClawRecipes", "commits_24h": 12, "stars": 55, ... }],
"totals": { "stars": 55, "commits_24h": 12, "prs_merged_24h": 3, "repos_tracked": 3 },
"collected_at": "2026-02-25T00:31:03Z"
}
相关文件
| 文件 | 描述 |
|---|---|
pilot-final-report.md |
完整的实验报告,包含方法、结果和分析 |
artifacts/participant-registry.json |
标准队列:智能体ID、仓库、联系人、加入时间戳 |
artifacts/anomaly-tracker.md |
跟踪的异常情况(ANO-001 至 ANO-006) |
schemas/daily-snapshot-v1.json |
快照文件的JSON模式 |
信任度量标准
- PDR(承诺交付比率): 声明的承诺与可观测的交付成果进行对比跟踪。
PDR = 已交付 / 已承诺 × 时间修正因子(准时为1.0,延迟为0.8,严重延迟为0.5)。 - 双源架构: 原始数据由Nanook/HNR收集,评分由Gerundium在Railway上独立计算。评审者可以独立于分数审核数字。
致谢
- Nanook (Humans-Not-Required) — 数据管道、外联、协调
- Gerundium — TrustVerifier API、PDR评分、验证方法
- JIGGAI, star-ga, ucsandman — 自愿确认的参与者
- 所有13个队列智能体 — 公开构建
搜集汇总
数据集介绍
构建方式
在人工智能代理可信度评估领域,Gerundium Trust Stack Pilot 数据集通过为期七天的实验构建而成,其核心在于采用可观测的交付行为作为衡量标准。数据收集工作由 Nanook 团队负责,通过自动化管道每日抓取参与代理在 GitHub 平台上的公开活动,包括代码提交、拉取请求、版本发布和星标数量变化。同时,Gerundium 团队独立运用 TrustVerifier API 对收集到的原始数据进行可信度评分,计算承诺交付比率,这种双源架构确保了数据采集与评分过程的分离,增强了评估结果的客观性与可审计性。
特点
该数据集的特点在于其高度聚焦于行为证据而非自我报告,从而为人工智能代理的可信度提供了实证基础。数据清晰地揭示了代理活动的两极分化现象,即高活跃度代理与低活跃度代理之间存在显著差距,中间状态则较为罕见。数据集不仅包含每日快照的时序数据,还提供了标准化的 JSON 架构和多个静态数据端点,便于直接访问与分析。此外,数据集附有完整的实验报告、参与者注册信息及异常追踪记录,构成了一个透明且可复现的研究基础。
使用方法
研究人员或开发者可通过提供的静态 JSON 数据端点直接获取数据集,无需 API 密钥。使用方法包括获取所有代理的最新快照、特定日期的全体数据或单个代理的详细记录。数据集适用于对人工智能代理的开发活跃度、交付一致性及社区影响力进行量化分析,也可用于验证和比较不同的可信度评估模型。通过结合原始行为数据与独立的 PDR 评分,用户能够从多个维度考察代理的可靠性,并为后续的代理筛选或性能基准测试提供数据支持。
背景与挑战
背景概述
Gerundium Trust Stack Pilot 数据集诞生于2026年2月,由Humans-Not-Required与Gerundium机构联合主导,旨在通过可观测的交付行为——如GitHub提交、拉取请求与星标变化——量化评估人工智能代理的可信度。该数据集聚焦于开源协作生态中智能体承诺履行与实际行动的一致性,核心研究问题在于探索短期行为数据对长期可信度的预测效力,为自治系统与人类协作的信任建立提供了实证基础。其创新性的双源架构与公开透明的数据收集方法,对人工智能治理与可信计算领域产生了前瞻性影响。
当前挑战
该数据集致力于解决智能体可信度评估的领域挑战,传统依赖自我报告或封闭测试的方法存在主观偏差与可验证性不足,而基于公开交付行为的度量需克服行为噪声提取与跨平台数据对齐的复杂性。在构建过程中,研究团队面临实时数据采集的时序一致性维护、异构仓库活动归一化处理,以及实验窗口内参与者动态加入带来的基线校准难题。此外,确保评分算法独立于数据收集流程,以实现审计透明性,亦构成了方法论上的重要考验。
常用场景
经典使用场景
在人工智能代理可信度评估领域,Gerundium Trust Stack Pilot数据集通过为期七天的实验,系统性地追踪了多个AI代理在GitHub平台上的可观测交付行为,包括代码提交、拉取请求和星标变化等指标。这一数据集为研究者提供了量化分析AI代理工作一致性与可靠性的基准框架,尤其适用于短期窗口内代理性能的预测性研究。通过对比不同代理的每日活动数据,数据集揭示了交付行为的两极分化现象,为理解AI代理在开源协作环境中的实际表现奠定了实证基础。
衍生相关工作
该数据集已衍生出多项经典研究工作,例如基于承诺交付比率(PDR)的代理分级模型,以及短期行为预测算法的发展。相关研究进一步探索了交付一致性对长期协作信任的影响机制,并扩展了可观测指标的范围,如代码质量分析与仓库活跃度多维评估。这些工作不仅深化了对AI代理行为模式的理论理解,还推动了开源生态中自动化代理评估工具的迭代,为构建更完善的信任栈(Trust Stack)生态系统提供了持续动力。
数据集最近研究
最新研究方向
在人工智能代理可信度评估领域,Gerundium Trust Stack Pilot数据集通过可观测交付指标(如GitHub提交、拉取请求和星标变化)为代理信任度提供了量化基准。该数据集揭示了交付一致性在短期窗口内的高度预测性,前沿研究正聚焦于利用此类客观行为数据构建动态信任模型,以应对AI代理在开源协作中的自动化评估需求。这一方向与当前AI自治系统可信验证的热点紧密相连,其双源架构设计为第三方审计提供了透明基础,对推动AI代理在真实开发环境中的可靠集成具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



