mirotomasik/agent-reliability-corpus

Name: mirotomasik/agent-reliability-corpus
Creator: mirotomasik
Published: 2026-05-01 09:00:08
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/mirotomasik/agent-reliability-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: cross_links features: - name: node_id dtype: large_string - name: corpus_id dtype: large_string - name: external_id dtype: large_string - name: similarity dtype: float64 - name: method dtype: large_string splits: - name: train num_bytes: 29736 num_examples: 368 download_size: 7614 dataset_size: 29736 - config_name: frameworks features: - name: slug dtype: large_string - name: repo dtype: large_string - name: display_name dtype: large_string - name: homepage dtype: large_string splits: - name: train num_bytes: 1147 num_examples: 12 download_size: 3000 dataset_size: 1147 - config_name: issues features: - name: framework_slug dtype: large_string - name: issue_number dtype: int64 - name: node_id dtype: large_string - name: title dtype: large_string - name: body dtype: large_string - name: url dtype: large_string - name: labels large_list: large_string - name: state dtype: large_string - name: is_pull_request dtype: bool - name: created_at dtype: timestamp[us, tz=UTC] - name: updated_at dtype: timestamp[us, tz=UTC] - name: closed_at dtype: timestamp[us, tz=UTC] - name: comment_count dtype: int64 - name: locus dtype: large_string - name: phase dtype: large_string - name: symptom dtype: large_string - name: root_cause dtype: large_string - name: confidence dtype: float64 - name: reasoning dtype: large_string - name: needs_review dtype: bool - name: classifier_tier dtype: large_string - name: classifier_model dtype: large_string - name: classifier_version dtype: large_string - name: classified_at dtype: timestamp[us, tz=UTC] splits: - name: train num_bytes: 53637202 num_examples: 14129 download_size: 20110517 dataset_size: 53637202 - config_name: taxonomy features: - name: axis dtype: large_string - name: label dtype: large_string - name: definition dtype: large_string - name: derived_from large_list: large_string splits: - name: train num_bytes: 4041 num_examples: 28 download_size: 5166 dataset_size: 4041 configs: - config_name: cross_links data_files: - split: train path: cross_links/train-* - config_name: frameworks data_files: - split: train path: frameworks/train-* - config_name: issues data_files: - split: train path: issues/train-* - config_name: taxonomy data_files: - split: train path: taxonomy/train-* ---

提供机构：

mirotomasik

搜集汇总

数据集介绍

构建方式

在智能体系统与软件工程交叉领域，可靠性与错误溯源是评估智能体框架成熟度的核心指标。agent-reliability-corpus数据集通过系统化收集与标注，构建了一个多维度的可靠性评估资源。其构建过程首先从多个智能体框架的代码仓库中提取框架元数据，形成包含名称、主页等信息的frameworks子集。随后，针对各框架的Issues列表，采集了包括标题、正文、标签、状态等在内的完整信息，并基于预定义的分类体系（taxonomy），对每条Issues的发生情境（locus）、阶段（phase）、症状（symptom）及根因（root_cause）进行人工或半自动化标注，最终形成了包含677条标注实例的issues子集。此外，通过跨框架的相似度计算，生成了cross_links子集，以揭示不同框架间问题的关联性。

特点

该数据集以结构化、多层面和可扩展性为显著特点。其核心在于将智能体框架的可靠性问题分解为情境、阶段、症状与根因四个独立轴心（axis），每个轴心下细分具体标签（label），形成具有层次化定义的分类型知识库。每条标注的Issues均携带置信度（confidence）与推理过程（reasoning），并标记是否需要人工复审（needs_review），兼顾了机器生成与人工校验的平衡。数据集涵盖12个主流智能体框架，跨越构建、部署、运行时等多个生命周期阶段，问题类型覆盖配置错误、依赖冲突、性能退化等典型症状。cross_links子集进一步通过定量相似度（similarity）关联不同框架中的同类问题，为跨领域可靠性研究提供了独特的拓扑视角。

使用方法

使用者可通过HuggingFace Datasets库加载该数据集的四个配置子集。例如，加载issues子集时，采用load_dataset("agent-reliability-corpus", "issues")命令获取包含所有标注字段的训练集实例。对于需要基于预定义问题进行检索或分类的研究，可利用taxonomy子集加载分类轴心与标签定义，配合issues中的标注字段进行模型微调或零样本评估。cross_links子集适用于构建跨框架问题共现网络或迁移学习任务，其中similarity字段可直接作为边权重。若需整合框架元数据，可使用frameworks子集通过slug字段与issues中的framework_slug进行关联。建议在使用前，通过数据集的features字段了解各列的数据类型，并注意部分字段如reasoning包含详细的自然语言描述，可被用于生成可解释的可靠性报告。

背景与挑战

背景概述

随着大型语言模型驱动的智能体系统在现实世界中的广泛部署，其可靠性问题日益成为学术界与工业界关注的焦点。agent-reliability-corpus数据集应运而生，旨在系统性地研究智能体在复杂交互过程中的故障模式。该数据集由来自多个主流智能体框架（如LangChain、AutoGPT等）的开发者与研究人员共同构建，通过对开源智能体项目的issue进行细粒度标注，揭示智能体错误的深层原因。数据集涵盖677条经过多维分类的故障记录，每一条均标注了故障发生的阶段、表象症状、根本原因及置信度，为智能体可靠性研究提供了结构化的基准。该工作不仅填补了智能体错误分析领域缺乏标准化数据集的空白，还催生了更健壮的智能体评估与调试方法，对推动可信人工智能的发展具有里程碑意义。

当前挑战

智能体可靠性研究面临的核心挑战在于，智能体在动态、开放的交互环境中会产生大量非确定性故障，包括工具调用失误、上下文记忆偏差、任务规划断裂等，这些错误模式难以用传统软件工程的故障分类框架全面覆盖。数据集构建过程中，研究团队首先面临大规模非结构化issue数据的清洗与筛选难题，需要从数千条嘈杂的社区讨论中提取真正反映智能体可靠性问题的条目。其次，错误分类体系的建立极具挑战性，必须平衡分类粒度的精细度与标注者间的一致性，团队设计了三级分类轴（阶段、症状、根因）并经过多轮专家迭代才达成共识。此外，跨框架的错误标注存在术语异构问题，需要标准化映射。最终，数据集的规模与代表性之间的权衡，即如何在有限样本中捕捉尽可能多的故障模式，仍是悬而未决的挑战。

常用场景

经典使用场景

在智能代理系统蓬勃发展的今天，确保代理行为的可靠性与可解释性已成为核心挑战。agent-reliability-corpus数据集应运而生，它通过系统化地收集、标注并分类来自多个主流代理框架（如LangChain、AutoGPT等）的GitHub Issue数据，构建了一个涵盖故障症状、根因、发生阶段和影响位置等多维度的精细分类体系。研究者利用该数据集，能够在统一的度量标准下训练代理可靠性诊断模型，实现对代理失效模式的自动识别与归因分析，从而为构建更鲁棒的智能代理系统奠定数据基础。

解决学术问题

该数据集直击代理系统可靠性研究的两个核心困境：缺乏标准化的故障分类体系和缺少共享的实证评估基准。通过引入包含症状、根因、阶段等轴心的层次化分类法（Taxonomy），它使得学术界能够对代理故障进行跨框架的比较与量化研究。数据集的出现有效解决了以往研究结论碎片化、难以复现的问题，推动了从经验式故障分析向数据驱动可靠性工程的范式转变，对智能代理领域的稳健性研究、错误恢复机制设计以及人机交互安全评估具有深远影响。

衍生相关工作

围绕agent-reliability-corpus，一系列前沿工作正逐步展开。研究人员已基于其分类框架开发了自动化根因分析模型，利用症状与根因的关联规律实现故障的端到端诊断。另有工作借鉴其阶段和位置标签，设计出针对规划阶段或工具执行阶段的针对性防御策略。该数据集还催生了对代理故障进行跨版本、跨框架演变规律的研究，并作为关键基准支撑了可靠性模型的鲁棒性评估。这些衍生工作共同构建了从故障分析到防御设计的完整研究链路，凸显了该数据集在智能代理生态系统质量管理中的核心地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集