agent-reliability-corpus

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/mirotomasik/agent-reliability-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个主要配置：1) cross_links：包含节点关联数据，字段包括node_id、corpus_id、external_id、相似度分数和方法；2) frameworks：记录软件框架信息，包含slug标识、代码库地址、显示名称和主页链接；3) issues：详细的issue跟踪数据集，包含框架标识、issue编号、标题、正文、URL、标签、状态、PR标记、时间戳（创建/更新/关闭）、评论数，以及问题定位、阶段、症状、根本原因等分类字段，还包括分类器元数据和置信度评分；4) taxonomy：分类体系定义数据，包含分类轴心、标签名称、定义文本和来源引用。数据集规模方面，frameworks包含12个样本，issues包含677个样本，taxonomy包含28个分类条目，cross_links当前示例数为0。该数据集特别适用于软件工程研究、issue分类系统开发、框架元数据分析等应用场景。

This dataset includes four main configurations: 1) cross_links: contains node association data with fields such as node_id, corpus_id, external_id, similarity scores, and methods; 2) frameworks: records software framework information, including slug identifiers, repository URLs, display names, and homepage links; 3) issues: a detailed issue tracking dataset with fields like framework identifier, issue number, title, body, URL, labels, status, PR flags, timestamps (created/updated/closed), comment counts, and classification fields for problem location, stage, symptoms, root causes, along with classifier metadata and confidence scores; 4) taxonomy: defines a classification system with fields for classification axes, label names, definition texts, and source citations. In terms of scale, frameworks contain 12 samples, issues contain 677 samples, taxonomy has 28 classification entries, and cross_links currently has 0 examples. This dataset is particularly suitable for software engineering research, issue classification system development, framework metadata analysis, and other application scenarios.

创建时间：

2026-04-30

原始信息汇总

根据您提供的README文件内容，以下是该数据集（agent-reliability-corpus）的详细总结：

数据集概述

该数据集包含四个主要配置（configs），每个配置代表一个独立的数据子集，用于不同的研究或分析目的。

1. cross_links（交叉链接）

特征字段：node_id、corpus_id、external_id、similarity、method
数据规模：训练集包含0个样本（数据量为0字节）
用途：可能用于存储不同实体或文档之间的相似度链接关系及计算方法。

2. frameworks（框架）

特征字段：slug、repo、display_name、homepage
数据规模：训练集包含12个样本，数据量1147字节
用途：记录了不同框架的基本信息，包括名称、仓库地址、显示名称和主页链接。

3. issues（问题/议题）

特征字段：包括问题编号、标题、正文、URL、标签、状态、是否为拉取请求、创建/更新/关闭时间、评论数，以及分类信息（locus、phase、symptom、root_cause、confidence、reasoning）和分类器元数据（classifier_tier、classifier_model、classifier_version、classified_at、needs_review）
数据规模：训练集包含677个样本，数据量2.8MB
用途：较大规模子集，用于存储和分类软件项目中的问题或议题，每个问题附带详细的分类标签和置信度评估。

4. taxonomy（分类体系）

特征字段：axis、label、definition、derived_from
数据规模：训练集包含28个样本，数据量4041字节
用途：定义了分类体系的维度、标签及其定义，并记录每个标签的派生来源。

数据文件结构

所有配置均采用单一训练集分割（train），数据文件以Parquet格式存储，路径模式为 {config_name}/train-*，支持按配置名称加载。

数据总量

配置名称	样本数	数据量
cross_links	0	0
frameworks	12	1.1 KB
issues	677	2.8 MB
taxonomy	28	4.0 KB
总计	717	约2.8 MB

搜集汇总

数据集介绍

构建方式

在人工智能体可靠性研究的浪潮中，本数据集以结构化方式构建了一套面向Agent故障诊断的知识体系。其核心构建路径涵盖四个子集：issues配置汇聚了来自多个主流Agent框架的677条真实issue记录，每条记录经人工与自动化双重标签体系标注，涵盖故障表象、根因、置信度与推理过程等维度；frameworks配置收录了12个关键框架的元数据，作为故障分析的上下文锚点；cross_links配置通过节点间相似度计算建立关联图谱；taxonomy配置则定义了包含4个轴、28个标签的故障分类学体系，为数据提供统一的语义解析基石。

特点

该数据集最显著的特质在于其多层级、可溯源的精细标注结构。每个issue均包含loc（故障定位）、phase（故障阶段）、symptom（症状描述）和root_cause（根因分析）四个核心维度，配合置信度与推理过程字段，使得每一案例兼具诊断深度与解释性。数据集还引入classifier_tier、classifier_model与classifier_version等元数据，清晰记录了标签来源与分类器版本演进，为研究者评估标注可靠性提供了透明依据。此外，cross_links子集构建的关联网络，打通了不同框架间相似故障的认知通路，显著提升了跨平台迁移研究的价值。

使用方法

用户可通过HuggingFace的datasets库轻松加载该数据集，指定config_name参数选择cross_links、frameworks、issues或taxonomy子集。例如，使用`load_dataset('agent-reliability-corpus', 'issues')`即可获取全部标注后的issue数据。研究者可基于taxonomy定义的分类体系对issues子集进行筛选、聚合与分析，结合cross_links子集的相似度关系图进行跨案例推理。建议将frameworks子集作为过滤条件，以研究特定框架下的故障模式。所有子集均以训练集格式提供，便于直接应用于无监督或弱监督学习场景，如故障分类器训练、根因溯源模型构建等。

背景与挑战

背景概述

Agent Reliability Corpus是一个专注于评估和提升人工智能代理系统可靠性的数据集，由研究机构于近年创建。该数据集围绕智能代理在实际应用中频繁出现的故障模式展开，核心研究问题在于如何系统性地识别、分类并追溯代理行为中的错误根源，从而推动代理系统从实验室环境走向真实场景的稳健部署。通过对多个开源代理框架的议题（issues）进行深度标注，该数据集构建了包含症状、根因、阶段和置信度等多维度的细粒度分类体系，为代理可靠性研究提供了标准化的评估基准。其在代理系统鲁棒性、可解释性与安全验证等交叉领域产生了重要影响，促使研究者从经验性调优转向基于数据驱动的可靠性工程范式。

当前挑战

该数据集面临的挑战首先来自代理系统特有的领域问题：与经典分类任务不同，代理行为具有高度开放性和上下文依赖性，其故障模式（如意图误解、工具调用失败）难以通过传统分类方法捕捉和泛化。此外，构建过程中需克服稀疏标注与专家知识融合的困境——代理错误类型多样且分布极不均衡，仅依靠人工标注难以覆盖长尾故障，而自动化分类器又易受框架变动影响导致概念漂移。跨框架的故障模式迁移性亦构成显著障碍，不同代理框架的架构差异使得统一分类体系难以直接适配，需不断迭代分类器版本并人工校验高风险样本，从而在标注成本与数据集质量间寻求平衡。

常用场景

经典使用场景

在人工智能代理（AI Agent）领域，随着大型语言模型（LLM）驱动的自主系统逐步走向实用化，代理在实际运行中的可靠性问题成为制约其落地的核心瓶颈。该数据集被广泛用于构建代理可靠性评估基准，通过系统性地收集和标注来自主流代理框架（如LangChain、AutoGPT等）的GitHub Issues，研究人员得以深入分析代理在任务执行过程中出现的各类故障模式，包括错误定位、症状分类、根因推断等关键环节。经典使用场景包括利用该语料库训练故障分类器，以实现对代理运行时异常的自动诊断与归因。

解决学术问题

该数据集填补了代理可靠性领域系统化实证研究的空白，解决了长期以来学术界缺乏大规模、多维度、细粒度标注的代理故障语料问题。通过提供包含677个标注问题的跨框架语料，以及一套完整的故障分类法（涉及Locus、Phase、Symptom、Root Cause四个轴），研究者得以定量分析不同代理框架在可靠性方面的差异，理解常见错误模式的分布规律。这一资源极大地推动了自动故障诊断、代理鲁棒性增强、可解释性研究等方向的发展，为从经验性个案分析走向数据驱动的系统性研究奠定了基础。

衍生相关工作

该数据集催生了一系列具有影响力的衍生工作，包括基于多层次分类法的代理故障预测模型、融合因果推理的根因分析框架，以及跨框架迁移的通用可靠性评估方法。研究者借鉴其标注体系，进一步拓展出针对多轮对话代理的恶化模式分析工具和基于知识图谱的故障关联挖掘系统。这些工作不仅深化了对代理故障本质的理解，也推动了代理可靠性工程从被动响应向主动防御演进，形成了以数据驱动的代理质量保障研究新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集