puma-community-submissions

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/pumaproject/puma-community-submissions

下载链接

链接失效反馈

官方服务：

资源简介：

PUMA社区提交数据集是一个由社区贡献的基准测试结果集合，源自PUMA（项目理解与管理代理）平台。该平台是一个用于实证评估本地大型语言模型代理在项目管理办公室任务上性能的框架。数据集包含在多个支持场景上运行的PUMA基准测试结果：1) triage_jira：基于Jira社交知识库的问题分类任务，以宏观F1分数报告；2) effort_tawos：基于TAWOS数据集的故事点工作量估计任务，以平均绝对误差报告；3) prioritization_jira：问题优先级排序任务，以nDCG@10报告（社区评估，可选）。每个提交都是一个JSON文件，详细记录了运行元数据（如模型、提示策略、场景、随机种子、温度）、硬件配置（CPU-only/GPU/Apple Silicon变体）、带有自助法置信区间的性能指标、可持续性数据（通过CodeCarbon估算的千瓦时能耗和二氧化碳当量克数），以及用于完整性验证的可选原始预测文件链接。数据集遵循透明和可复现的原则，提供了足够的元数据以支持本地复现，并通过可选哈希验证机制确保结果完整性。数据集规模为小于1000个样本，适用于大型语言模型评估、项目管理代理基准测试、可持续AI研究以及问题分类与工作量估计等任务。数据使用CC-BY-4.0许可。

The PUMA Community Submissions dataset is a collection of benchmark results contributed by the community, originating from the PUMA (Project Understanding and Management Agent) platform. This platform is a framework for empirically evaluating the performance of local large language model agents on project management office tasks. The dataset includes PUMA benchmark results run on multiple supported scenarios: 1) triage_jira: issue triage tasks based on Jira social knowledge base, reported with macro F1 score; 2) effort_tawos: story point effort estimation tasks based on the TAWOS dataset, reported with mean absolute error; 3) prioritization_jira: issue prioritization tasks, reported with nDCG@10 (community-evaluated, optional). Each submission is a JSON file detailing run metadata (e.g., model, prompting strategy, scenario, random seed, temperature), hardware configuration (CPU-only/GPU/Apple Silicon variants), performance metrics with bootstrap confidence intervals, sustainability data (kWh energy consumption and CO2e grams estimated via CodeCarbon), and optional links to raw prediction files for integrity verification. The dataset adheres to transparency and reproducibility principles, providing sufficient metadata for local replication and ensuring result integrity through optional hash verification mechanisms. The dataset size is less than 1000 samples and is suitable for tasks such as large language model evaluation, project management agent benchmarking, sustainable AI research, and issue triage and effort estimation. The data is licensed under CC-BY-4.0.

创建时间：

2026-05-22

原始信息汇总

PUMA Community Submissions 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语
标签: benchmark, llm-evaluation, project-management, local-llm, sustainability, issue-triage, effort-estimation
数据规模: n<1K（少于1000条）
名称: PUMA Community Submissions
主页: PUMA GitHub仓库

数据集描述

该数据集包含来自PUMA平台的社区贡献的基准测试结果。PUMA是一个针对本地LLM代理在项目管理办公室（PMO）任务上的经验性评估平台。

数据内容

每个提交是一个JSON文件，存储在 submissions/ 目录下，包含在以下支持场景上的PUMA基准测试运行结果：

支持场景

triage_jira — Jira Social Repository上的问题分类，报告指标为F1-macro
effort_tawos — TAWOS上的故事点工作量估算，报告指标为MAE（故事点）
prioritization_jira — 问题优先级排序，报告指标为nDCG@10（社区评估，可选）

每条提交包含

运行元数据（模型、提示策略、场景、种子、温度）
硬件配置（仅CPU / GPU / Apple Silicon）
带有bootstrap置信区间的指标
可持续性数据（kWh能耗，通过CodeCarbon计算的gCO₂eq）
可选的 raw_predictions_url 用于完整性验证

Schema规范

规范的JSON Schema位于治理仓库： schema/submission.v1.json

最小示例结构

json { "schema_version": "1.0.0", "submission_id": "sub_2026_001", "submitter": { "github_handle": "pumacp", "affiliation": "UOC" }, "run_metadata": { "scenario": "triage_jira", "model": "qwen2.5:3b", "prompting": "few_shot_3", "seed": 42, "temperature": 0.0 }, "hardware_profile": { "type": "cpu_only", "ram_gb": 16 }, "metrics": { "f1_macro": 0.5867, "ci_lower": 0.5612, "ci_upper": 0.6122 }, "sustainability": { "kwh": 0.0074, "co2_g": 3.075 }, "raw_predictions_url": "https://github.com/pumacp/puma-community/raw/main/raw/sub_2026_001.jsonl", "predictions_summary_hash": "sha256:..." }

提交流程

社区成员本地运行 puma share-results --run-id <id>
PUMA在 pumacp/puma-community 上开启一个pull request
自动化验证检查schema、哈希完整性和可重现性元数据
合并后，GitHub Action自动将文件镜像到该数据集
排行榜Space在约5分钟内刷新

信任模型

该数据集基于透明度而非把关原则：

每次提交包含足够的元数据以在本地重现运行
可选的 raw_predictions_url 允许验证者Space重新计算预测的SHA-256并在GitHub中生成 verified: true 侧车文件
验证仅针对完整性，不重新执行模型
未验证的提交保持可见，但在排行榜中被标记

许可

提交数据: CC-BY-4.0
PUMA源代码: MIT

搜集汇总

数据集介绍

构建方式

PUMA社区提交数据集（puma-community-submissions）的构建根植于项目管理办公室（PMO）任务中本地大语言模型代理的实证评估框架PUMA。该数据集通过社区协作方式生成：参与者首先在本地利用PUMA工具运行指定的基准测试场景，涵盖工单分类（triage_jira）、工作量估算（effort_tawos）和问题优先级排序（prioritization_jira）等典型任务，随后通过执行“puma share-results”命令自动生成包含模型参数、硬件配置、度量指标及可持续性数据（能耗与碳排放）的结构化JSON结果文件。这些文件经由Pull Request提交至治理仓库（pumacp/puma-community），通过模式校验、哈希完整性检查及可复现性元数据验证等自动化流程后，被合并并由GitHub Action镜像同步至HuggingFace数据集存储库，最终经过约5分钟的刷新周期呈现在交互式排行榜中。

特点

该数据集的核心特征在于其透明而非设限的信任模型（transparency, not gatekeeping）。每个提交记录均携带丰富的元数据，使得任何第三方都能够依据这些信息局部复现实验过程，包括模型类型、提示策略、随机种子乃至温度参数等细微设置。尤为独特的是，数据集内置了可选的原始预测URL字段（raw_predictions_url），可对接独立的验证空间（PUMA Verifier）通过SHA-256哈希比对实现完整性验证，但这一验证仅限于数据的未被篡改证明，而非对模型性能的重新评估。同时，数据集将环境可持续性纳入核心度量体系，借助CodeCarbon工具实时记录每一次推理的能耗与碳排当量，开创了负责任的AI评估新范式。未通过验证的提交虽被标注但依然可见，维护了社区贡献的包容性与可追溯性。

使用方法

使用该数据集时，研究者和开发者可通过HuggingFace的datasets库直接加载此存储库，遍历submissions目录下的JSON文件以获取结构化的基准测试结果。每个文件遵循统一的submission.v1.json模式，包含六个核心组件：提交者信息、运行元数据（如场景名称与模型代号）、硬件配置档案、带有Bootstrap置信区间的性能指标、CodeCarbon导出的可持续性数据以及可选的原始预测链接。用户可依据scenario字段过滤特定PMO任务，或利用metrics中的F1-macro、MAE与nDCG@10等关键指标进行模型间横向对比。此外，数据集的交互式排行榜空间（puma-leaderboard）提供了可视化筛选与散点图分析功能，支持动态查询与聚合统计，便于快速洞察不同提示策略和硬件环境对模型效能及环境足迹的交互影响。

背景与挑战

背景概述

PUMA Community Submissions数据集诞生于2026年，由PUMA项目贡献者团队基于开源框架PUMA（Project Understanding and Management with Agents）构建，旨在系统性评估本地大语言模型在项目管理办公室（PMO）任务中的表现。该数据集聚焦于三大核心场景：基于Jira Social Repository的问题分类（triage_jira）、基于TAWOS的故事点工作量估计（effort_tawos）以及问题优先级排序（prioritization_jira），分别以F1-macro、平均绝对误差和nDCG@10作为评估指标。通过收录社区贡献的标准化运行元数据、硬件配置、引导置信区间的指标以及能耗与碳排放数据，该数据集为本地LLM在PMO领域的实证研究提供了透明、可复现的基准平台，推动了项目管理智能化的可验证评估范式。

当前挑战

该数据集面临的挑战主要体现在三个层面。首先，项目管理领域任务具有高度依赖上下文和隐式规则的特点，例如问题分类需兼顾语义理解与领域特质，而故事点估计则需应对需求描述的模糊性，这对仅基于语言模型的现有方法构成根本性挑战。其次，构建过程中需确保社区提交的质量一致性，尽管设计了自动化的模式验证与哈希完整性检查，但缺乏对模型实际输出的重验证机制（仅验证预测哈希而非重新执行），可能导致结果的可信度存疑。此外，可持续性数据的记录依赖于硬件配置的精确上报，而社区运行环境的多样性使得能耗与碳排放的横向比较面临标准化难题。

常用场景

经典使用场景

在项目管理办公室（PMO）场景中，PUMA社区提交数据集为评估本地大型语言模型代理的性能提供了标准化基准。该数据集聚焦于三大经典任务：基于Jira社交仓库的问题分类（triage_jira），通过F1-macro衡量模型区分不同问题类别的能力；基于TAWOS数据集的故事点工作量估算（effort_tawos），以平均绝对误差（MAE）评估模型预测故事点的精准度；以及问题优先级排序（prioritization_jira），采用nDCG@10指标衡量排序质量。研究者和工程师可借助这些场景，系统性地比较不同模型、提示策略及硬件配置下的代理表现，从而筛选出最适合特定PMO任务的配置方案。

解决学术问题

该数据集有效解决了项目管理自动化领域中缺乏可重复、标准化评估框架的长期难题。传统上，针对问题分类、工作量估算和优先级排序的研究往往在私有数据集上开展，导致结果难以横向对比与复现。PUMA社区提交数据集通过统一的提交架构、引导置信区间和可验证的原始预测链接，建立了透明且可溯源的评估生态。这为比较不同语言模型的PMO任务能力提供了可靠依据，推动了该领域从经验性报告向标准化基准研究的范式转变，显著促进了代理系统在实际PMO场景中的可信度与可靠性研究。

衍生相关工作

该数据集衍生了一系列关键工作，其中最为突出的是PUMA开源评估平台本身及其治理仓库，它们共同定义了基准测试的标准流程与JSON Schema。基于此，社区开发了交互式排行榜（PUMA Leaderboard），支持筛选、散点图展示和验证徽章，极大提升了结果的可视化与可比较性。此外，验证器空间（PUMA Verifier）被构建用于通过SHA-256哈希验证提交结果的完整性，进一步增强了数据集的信任模型。这些衍生工作共同构成了一个完整的评估生态系统，不仅服务于PMO任务的研究，也为更广泛的LLM代理评估提供了可借鉴的技术架构与社区治理范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

资源	位置
源代码	github.com/pumacp/puma
治理与PR流程	github.com/pumacp/puma-community
实时排行榜	pumaproject/puma-leaderboard
可引用快照（季度）	待2026年第三季度发布于Zenodo