five

grafanalabs/o11y-bench-leaderboard

收藏
Hugging Face2026-05-01 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/grafanalabs/o11y-bench-leaderboard
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- # O11y Bench Leaderboard Submissions This repository accepts leaderboard submissions for [o11y-bench](https://github.com/grafana/o11y-bench), Grafana's benchmark for LLM agents on observability and SRE tasks. ## How to Submit 1. Fork this repository 2. Create a new branch for your submission 3. Add your submission under `submissions/o11y-bench/1.0/<agent>__<model(s)>/` 4. Open a Pull Request ## Submission Structure ```text submissions/ o11y-bench/ 1.0/ <agent>__<model>/ metadata.yaml # Required: agent and model info <job-folder>/ # One or more Harbor job directories config.json result.json <trial-1>/result.json <trial-2>/result.json ... ``` ## Required: metadata.yaml Each submission must include a `metadata.yaml` file with the following fields: ```yaml agent_url: https://... # Required: link to agent repo/docs agent_display_name: "My Agent" # Required: display name for leaderboard agent_org_display_name: "My Org" # Required: organization name models: # Required: list of models used - model_name: openai/gpt-5.4-mini # Required: model identifier model_provider: openai # Required: provider (openai, anthropic, google, etc.) model_display_name: "GPT-5.4 Mini" # Required model_org_display_name: "OpenAI" # Required # - Other models if your agent used multiple ``` ## Job Directory Requirements Each job directory must contain all of the contents of the Harbor run you want scored, including: - `config.json` - `result.json` - all trial subdirectories - agent logs and artifacts downloaded with the run - verifier output for each trial ### Validation Rules Submissions are expected to preserve the benchmark's shipped evaluation settings. In the current local `o11y-bench` repo: - Harbor runs use `timeout_multiplier = 1.0`; submissions should not override it - Every task currently ships with `agent.timeout_sec = 600.0` - Every task currently ships with `verifier.timeout_sec = 300.0` - Every task currently ships with `environment.build_timeout_sec = 600.0` - No resource overrides (`override_cpus`, `override_memory_mb`, `override_storage_mb`) - All trial directories must have valid `result.json` files - Trial directories must include the rest of the run artifacts, not just copied result files - The current benchmark runner defaults to `n_attempts = 3` per task and `n_concurrent = 8` If leaderboard policy later requires a different minimum number of attempts per task, document that policy here and in the validator rather than relying on stale benchmark README text. ## Recommended Run Setup O11y Bench runs on Harbor. A typical benchmark run looks like: ```bash cd o11y-bench mise run bench:job -- --model openai/gpt-5.4-mini ``` This writes a Harbor job directory under `jobs/`. By default, the current runner executes `3` attempts per task and uses concurrency `8`. Copy the completed job directory into your submission folder and add a `metadata.yaml` file alongside it. If you want an explicit attempt count in the recorded run, pass it through the benchmark CLI: ```bash mise run bench:job -- --model openai/gpt-5.4-mini --n-attempts 3 ``` ## Example Submission Path ```text submissions/o11y-bench/1.0/MyAgent__GPT-5.4-Mini/ metadata.yaml 2026-04-10__14-30-00/ config.json result.json ... ``` ## Submission Process 1. Open a Pull Request with your submission 2. Fix any validation issues reported by CI or maintainers 3. After approval and merge, the submission can be imported into the leaderboard ## Questions? Open an issue in this repository.
提供机构:
grafanalabs
搜集汇总
数据集介绍
main_image_url
构建方式
O11y Bench Leaderboard 数据集旨在收纳 LLM 代理在可观测性与站点可靠性工程任务上的基准评测结果。数据集通过 GitHub 仓库的拉取请求机制构建,提交者需复刻本仓库并新建分支,在指定路径 `submissions/o11y-bench/1.0/<agent>__<model(s)>/` 下放置包含 `metadata.yaml` 以及由 Harbor 任务运行产生的一系列文件目录。`metadata.yaml` 文件必须完整记录代理名称、组织信息以及所用模型的标识与提供商。每个任务目录需包含 `config.json`、`result.json` 及所有试验子目录和验证器输出等原始运行产物。
特点
本数据集突出优势在于高度结构化的组织方式,每份提交均严格遵循统一的层级目录划分,便于自动化验证与排行榜导入。数据集内置了完整的校验规则,例如默认采用 `timeout_multiplier = 1.0` 且不允许多次运行间覆盖资源限制参数,要求所有试验目录内必须含有合法的 `result.json` 文件并附有完整运行产物,从而确保各提交之间评估设定的一致性。当前基准运行器预设每任务尝试次数为 3 次,并发数为 8,既保证了实验的可重复性,也兼顾了评测效率与稳定性。
使用方法
用户需首先在本机使用 Harbor 执行基准运行,命令例如 `mise run bench:job -- --model openai/gpt-5.4-mini --n-attempts 3`,运行产生的作业目录将被复制到提交文件夹中。然后添加完整的 `metadata.yaml` 文件,并按照上述结构组织文件后,通过创建拉取请求提交至本仓库。经持续集成流程验证无格式错误或违背校验规则后,由维护者审核合并,最终将提交数据导入至排行榜系统,从而获得标准化的模型性能量化结果与横向对比反馈。
背景与挑战
背景概述
在可观测性与站点可靠性工程(SRE)领域,大语言模型(LLM)智能体的应用正逐渐成为自动化运维与故障排查的关键技术方向。Grafana实验室于近期推出了o11y-bench基准测试工具,旨在系统评估LLM智能体在真实运维场景下的表现。该数据集作为o11y-bench排行榜的提交存档,由Grafana团队主导构建,核心研究问题聚焦于如何标准化衡量智能体在可观测性任务中的效能。通过提供统一的提交格式与验证规则,该数据集为不同智能体与模型组合的横向比较建立了公开基准,对于推动LLM在运维自动化领域的发展具有重要影响。数据集本身涵盖了从配置到结果的完整运行轨迹,确保了评测过程的可复现性与公信力。
当前挑战
该数据集首先需要解决的是可观测性任务本身的领域挑战:如何定义与量化LLM智能体在复杂、多变的运维环境中的表现,这涉及对任务完成度、执行效率、错误恢复能力等多维指标的平衡。其次,构建过程中面临的核心挑战在于确保提交数据的完整性与一致性,具体包括:要求所有提交保留完整的Harbor运行目录(含config.json、result.json及多个试验子目录),禁止修改预设的超时参数(如agent.timeout_sec=600.0)与资源上限,并需通过严格的验证规则(如所有试验目录须包含有效result.json及完整运行工件)。此外,随着未来排行榜策略调整,还需要动态更新最低试验次数等规则,对数据维护与版本管理提出了持续性的要求。
常用场景
经典使用场景
在可观测性与站点可靠性工程领域,大型语言模型驱动的智能体正逐步成为自动化运维的核心力量。o11y-bench-leaderboard数据集正是为了系统性地评估这些智能体在复杂观测任务上的表现而设计的基准测试平台。其最经典的使用场景在于为开发者提供一个标准化、可复现的竞赛式评估环境,研究者可以通过提交包含特定智能体与模型组合的实验结果,在同一基准上横向对比不同方案的性能,从而推动LLM Agent在日志分析、指标异常检测、告警响应等SRE任务中的能力提升。
解决学术问题
该数据集有效解决了可观测性场景中缺乏统一、可量化评估标准的学术困境。传统上,针对LLM Agent在运维任务中的表现评价多依赖定性分析或零散的实验设计,难以形成具有广泛说服力的研究结论。o11y-bench-leaderboard通过定义标准化的任务集、超参数约束与验证规则,为学界提供了严谨的横向对比框架,使得研究者能够基于同一客观指标检验模型推理、工具调用与多步骤规划等能力的优劣,进而推动可观测性领域从经验主义走向实证科学的范式转变。
衍生相关工作
围绕o11y-bench-leaderboard的数据结构与评估范式,已衍生出一系列具有启发性的研究工作。一方面,研究者开始探索如何基于该基准中的多任务失败模式,设计更具鲁棒性的Agent反思与重试机制。另一方面,排行榜提交数据本身构成了宝贵的多智能体行为语料库,催生了针对Agent规划策略聚类分析、模型调用开销与任务成功率之间权衡关系的量化研究。这些衍生工作不仅丰富了可观测性AI的学术图谱,也为后续更高效、更可信的运维Agent系统设计提供了理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作