Agentic Data Access Benchmark (ADAB)

github2024-10-31 更新2024-11-03 收录

下载链接：

https://github.com/hasura/agentic-data-access-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Agentic Data Access Benchmark (ADAB) 是一个包含真实世界问题的数据集，用于评估AI助手在封闭领域中的表现。数据集涵盖了多个领域，如客户支持、电子邮件和日历、销售、人力资源、工程管理等，并提供了详细的问题描述和复杂度级别。

Agentic Data Access Benchmark (ADAB) is a dataset composed of real-world problems, designed to evaluate the performance of AI assistants in closed domains. The dataset covers multiple domains including customer support, email and calendar management, sales, human resources, and engineering management, and provides detailed problem descriptions and complexity levels.

创建时间：

2024-10-22

原始信息汇总

Agentic Data Access Benchmark (ADAB)

概述

Agentic Data Access Benchmark (ADAB) 是一个用于评估AI助手/代理在封闭域中性能的真实世界问题集合。封闭域是指数据存储在安全或私有系统中（如企业数据库、SaaS应用等），AI解决方案需要连接LLM到这些数据。

问题集

问题集托管在：https://huggingface.co/datasets/hasura/agentic-data-access-benchmark

示例问题

用户目标	领域	数据需求	代理复杂度级别	代理复杂度备注
显示我过去一周未读的重要或需要跟进邮件。	邮件 + 日历	1. 获取时间范围内的邮件 2. 获取邮件元数据	高	跟随连接，计算
获取本周所有食品订单的收据	邮件 + 日历	1. 获取时间范围内的邮件 2. 获取附件	高	跟随连接，计算
总结我即将旅行的行程，包括航班号、酒店、租车等	邮件 + 日历	1. 获取邮件	高	智能搜索策略，计算
是否有付费计划的用户在过去7天内创建了支持工单	客户支持	1. 获取过去7天的工单及提交者的`email`<br>2. 获取这些邮件的用户<br>3. 获取这些用户的项目及计划	中	跟随连接
是否有在过去30天内未被回复的支持工单	客户支持	1. 获取过去30天的工单及工单评论	中	智能搜索策略
哪些用户有流失风险，查看项目使用情况、支持工单等？	客户支持	1. 获取约90天前的工单<br>2. 获取使用量低或为零的项目<br>3. 获取错误率高的项目	高	跟随连接，计算
帮助我根据用户的计划、收入和使用情况优先处理支持工单#1234	客户支持	1. 获取所有`status=open`的工单<br>2. 根据project_name或提交者email获取项目<br>3. 从项目获取计划<br>4. 从项目获取发票<br>5. 从项目获取使用情况	高	智能搜索策略，跟随连接

领域描述

使用了一组常见的领域作为指导，包括客户支持、邮件+日历、销售、人力资源、工程管理，详细描述见这里。

总体统计

总共约有130个问题，不同维度的分布如下：

问题按领域分布
问题按复杂度分布
代理复杂度级别
代理复杂度类型
用例类别分布
用例类别按领域分布

用例类别

多步数据检索

涉及从多个位置获取数据，如从不同数据库表获取数据。

数据聚合

涉及从简单数据点聚合数据，如计数、求和、分组。

批量洞察

涉及对每个数据项生成特定洞察。

批量分类

涉及通过分类/分类将相关项目从批量数据中找出。

点搜索

涉及在批量数据中找到具有复杂特征的最相关项目。

结构化信息提取

涉及从文本数据中提取结构化信息，以便输入到其他系统。

数据可视化

涉及将数据转换为更易于人类消费的格式。

下一步

提供了这些领域的原始数据在domains文件夹中（首先从客户支持开始）。可以通过将这些数据整合到架构中并尝试使用LLM来评估AI助手的性能。

搜集汇总

数据集介绍

构建方式

Agentic Data Access Benchmark (ADAB) 数据集的构建基于对现实世界中封闭域问题的深入分析。该数据集通过收集和整理来自多个封闭域（如企业数据库、SaaS应用等）的真实问题，旨在评估AI助手在这些领域中的数据访问和计算能力。构建过程中，研究团队特别关注了AI系统在处理复杂和序列操作时的表现，这些问题不仅涵盖了基本的数据检索，还包括数据聚合、分类和结构化信息提取等高级任务。通过这种方式，ADAB数据集为评估和提升AI系统在封闭域中的性能提供了坚实的基础。

特点

ADAB数据集的主要特点在于其问题设置的多样性和复杂性。数据集包含了约150个问题，涵盖了客户支持、电子邮件与日历、销售、人力资源和工程管理等多个领域。每个问题都根据其代理复杂性级别进行了分类，从简单的数据检索到复杂的多步骤数据操作。此外，数据集还特别强调了AI系统在处理大规模数据时的分类、聚合和结构化信息提取能力，这些特点使得ADAB成为评估和训练AI助手在封闭域中表现的重要工具。

使用方法

使用ADAB数据集时，用户可以通过访问Hugging Face平台上的数据集链接获取问题集。每个问题都附有详细的领域、代理复杂性级别和使用案例类别信息，用户可以根据这些信息选择适合自己需求的问题进行评估或训练。此外，数据集还提供了多种可视化工具，帮助用户直观地理解问题分布和复杂性级别。通过这些工具，用户可以更有效地评估和优化自己的AI系统，提升其在封闭域中的数据访问和计算能力。

背景与挑战

背景概述

Agentic Data Access Benchmark (ADAB) 数据集由一组真实世界的问题组成，旨在评估人工智能助手或代理在封闭域中的表现。封闭域指的是数据存储在安全或私有系统中，如企业数据库或SaaS应用程序，这些数据无法直接通过大型语言模型（LLM）获取。ADAB的创建源于在实际应用中发现的封闭域助手存在严重不足，尤其是在处理复杂或顺序操作时。该数据集由主要研究人员或机构开发，旨在通过提供一系列问题来帮助评估和提升AI系统在封闭域中的数据访问和操作能力。

当前挑战

ADAB数据集面临的挑战主要集中在解决封闭域中的数据访问问题。首先，AI系统需要能够连接到私有或安全的数据源，这通常涉及复杂的权限管理和数据集成。其次，数据集中的问题涉及多步骤数据检索、数据聚合、批量分类等复杂操作，这对AI系统的计算能力和智能搜索策略提出了高要求。此外，数据集还需要处理结构化信息提取和数据可视化等任务，这些任务要求AI系统具备高度的灵活性和准确性。

常用场景

经典使用场景

Agentic Data Access Benchmark (ADAB) 数据集的经典使用场景主要集中在评估和提升人工智能助手在封闭域中的数据访问和计算能力。通过提供一系列真实世界的问题，该数据集帮助研究人员和开发者理解AI系统在处理企业数据库、SaaS应用等私有系统中的数据时的表现。例如，数据集中的问题涉及从电子邮件和日历中提取未读的重要邮件，或者从客户支持系统中获取付费计划用户在过去一周内创建的支持票数量。这些问题不仅测试了AI系统的数据访问能力，还评估了其在复杂和顺序操作中的表现。

衍生相关工作

ADAB 数据集的发布催生了一系列相关研究和工作。例如，研究人员基于该数据集开发了新的AI模型，专门用于处理封闭域中的复杂数据访问和计算任务。此外，一些企业也开始使用ADAB作为基准，评估和改进其AI产品的性能。学术界和工业界的这些工作不仅提升了AI系统在封闭域中的表现，还促进了数据访问和计算领域的技术创新。通过这些衍生工作，ADAB 数据集的影响力得以进一步扩大，推动了AI技术在企业应用中的深入发展。

数据集最近研究