puma-community-submissions
收藏PUMA Community Submissions 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 标签: benchmark, llm-evaluation, project-management, local-llm, sustainability, issue-triage, effort-estimation
- 数据规模: n<1K(少于1000条)
- 名称: PUMA Community Submissions
- 主页: PUMA GitHub仓库
数据集描述
该数据集包含来自PUMA平台的社区贡献的基准测试结果。PUMA是一个针对本地LLM代理在项目管理办公室(PMO)任务上的经验性评估平台。
数据内容
每个提交是一个JSON文件,存储在 submissions/ 目录下,包含在以下支持场景上的PUMA基准测试运行结果:
支持场景
- triage_jira — Jira Social Repository上的问题分类,报告指标为F1-macro
- effort_tawos — TAWOS上的故事点工作量估算,报告指标为MAE(故事点)
- prioritization_jira — 问题优先级排序,报告指标为nDCG@10(社区评估,可选)
每条提交包含
- 运行元数据(模型、提示策略、场景、种子、温度)
- 硬件配置(仅CPU / GPU / Apple Silicon)
- 带有bootstrap置信区间的指标
- 可持续性数据(kWh能耗,通过CodeCarbon计算的gCO₂eq)
- 可选的
raw_predictions_url用于完整性验证
Schema规范
规范的JSON Schema位于治理仓库:
schema/submission.v1.json
最小示例结构
json { "schema_version": "1.0.0", "submission_id": "sub_2026_001", "submitter": { "github_handle": "pumacp", "affiliation": "UOC" }, "run_metadata": { "scenario": "triage_jira", "model": "qwen2.5:3b", "prompting": "few_shot_3", "seed": 42, "temperature": 0.0 }, "hardware_profile": { "type": "cpu_only", "ram_gb": 16 }, "metrics": { "f1_macro": 0.5867, "ci_lower": 0.5612, "ci_upper": 0.6122 }, "sustainability": { "kwh": 0.0074, "co2_g": 3.075 }, "raw_predictions_url": "https://github.com/pumacp/puma-community/raw/main/raw/sub_2026_001.jsonl", "predictions_summary_hash": "sha256:..." }
提交流程
- 社区成员本地运行
puma share-results --run-id <id> - PUMA在 pumacp/puma-community 上开启一个pull request
- 自动化验证检查schema、哈希完整性和可重现性元数据
- 合并后,GitHub Action自动将文件镜像到该数据集
- 排行榜Space在约5分钟内刷新
信任模型
该数据集基于透明度而非把关原则:
- 每次提交包含足够的元数据以在本地重现运行
- 可选的
raw_predictions_url允许验证者Space重新计算预测的SHA-256并在GitHub中生成verified: true侧车文件 - 验证仅针对完整性,不重新执行模型
- 未验证的提交保持可见,但在排行榜中被标记
相关资源
| 资源 | 位置 |
|---|---|
| 源代码 | github.com/pumacp/puma |
| 治理与PR流程 | github.com/pumacp/puma-community |
| 实时排行榜 | pumaproject/puma-leaderboard |
| 可引用快照(季度) | 待2026年第三季度发布于Zenodo |
许可
- 提交数据: CC-BY-4.0
- PUMA源代码: MIT




