patrickNLP/tapilot-crossing

Name: patrickNLP/tapilot-crossing
Creator: patrickNLP
Published: 2024-06-27 23:21:40
License: 暂无描述

Hugging Face2024-06-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/patrickNLP/tapilot-crossing

下载链接

链接失效反馈

官方服务：

资源简介：

Tapilot-Crossing是首个用于评估LLM代理在交互式数据分析中表现的基准数据集。它包含1024次用户与机器的交互，涉及1176个用户意图，覆盖四种实际场景：1) Normal，所有问题和用户需求都是明确的，不需要代理采取任何行动；2) Action，代理必须响应用户的反馈或指令；3) Private，考察代理在预训练阶段遇到未见过的包时的真实语义解析能力；4) Private Action，结合了Private和Action的特点，更贴近现实世界的数据分析。数据集还包含两种答案类型：1) Code Generation，测试代理是否能正确解释用户的查询并生成相应的数据分析代码；2) Multiple-Choice questions，评估代理理解执行结果并提供适当见解的能力。此外，数据集还特别评估了LLM代理在数据分析中的六种常见操作：Update_Code、Fast_Fail、Clarification、Best_Guess、Plot_QA和Insight_Mining。

提供机构：

patrickNLP

原始信息汇总

数据集概述

Tapilot-Crossing 是首个用于评估大型语言模型（LLM）代理在交互式数据分析中的基准。它包含1024个用户-机器交互，涉及1176个用户意图，涵盖四个实际场景：

Normal：所有问题和用户需求都是明确的，不需要代理采取任何行动。
Action：代理必须响应多样化的用户反馈或指令。
Private：在预训练阶段遇到未见过的包时，考察代理的真实语义解析能力（Zan et al., 2022）。
Private Action：结合Private和Action的特点，更接近真实世界的数据分析。

数据集包含两种答案类型：

代码生成：测试代理是否能正确解释用户查询并生成相应的数据分析代码。
多选题：评估代理理解执行结果并为用户提供适当见解的能力。

此外，我们还单独评估LLM代理在数据分析中的6种常见行动：

Update_Code：用户请求修复错误或改进先前查询的条件。
Fast_Fail：当数据内容或资源不足以满足用户请求，或用户查询包含事实错误时，提醒用户。
Clarification：对未明确指定的问题进行澄清，常见于数据分析查询中。
Best_Guess：针对未明确指定的问题，基于数据内容、领域知识和常识知识做出适当假设，以减少不确定性。
Plot_QA：在实际数据分析设置中，代理还应回答有关从图表中得出的见解的用户问题。
Insight_Mining：除了为用户生成代码以获取预期结果外，交互式数据分析代理还负责总结环境中的执行结果，以帮助用户做出明智的决策。

数据集结构

数据集的data目录结构如下：

1. 交互数据目录结构

第一层：数据集领域 顶层按数据集领域组织，例如atp_tennis专注于网球比赛。
第二层：代理配置文件和交互长度 下一层按代理配置文件和交互长度分类：
- 长交互：由经验丰富的配置文件表示，如“Carlos”擅长组织网球比赛。
- 短交互：以short_前缀表示，如short_Carlos。
第三层：数据模式 数据进一步分为四种模式，反映交互轮次的性质：
- Action：包含特殊行动（如分析、澄清请求）的交互轮次。
- Action_Private：Action模式的私有库版本。
- Normal：用户意图明确，不需要任何特殊行动的交互轮次。
- Private：Normal模式的私有库版本。
第四层：交互轮次 最后一层按交互轮次组织，提供数据集的细粒度视图。

2. 数据内容文件

interaction_data：包含所有交互数据。每个交互轮次（如turn_1_short_1表示短交互，turn_1表示长交互）包含以下文件：
- meta_data.json：包含问题的元数据，包括result_type、action和data_id。
- ref_result和pred_result目录：存储参考和预测代码生成的文件（pickles或PNG）。
- prompt_curr.txt：当前交互轮次的基本提示，用于查询大型语言模型。
- prompt_curr_oracle.txt（可选）：包含当前交互轮次的oracle私有函数的基本提示增强版。
- ref_code.txt：当前交互轮次的真实解决方案代码。
- eval.py：当前交互轮次的评估代码。
- reference_answer.txt（可选）：当前交互轮次的多选题正确答案。
- reference目录：包含交互历史和参考代码：
  - prompt_code_hist.json：包含交互历史的列表字典格式的基本提示，符合GPT输入格式。
  - prompt_code_hist.txt：包含交互历史的基本提示的纯文本格式。
  - ref_code_hist.py：排除当前轮次参考代码的交互历史参考代码，作为模型生成代码的代码上下文。
  - ref_code_all.py：包含完整交互历史和当前轮次代码的参考代码，可生成当前轮次的结果。
resource：包含所有表格数据的csv文件，以及名为“decision_company”的私有库的python和json格式。
rdb：包含历史关系数据库。我们将用户-AI交互分成多个单轮用户查询和AI答案，存储在按对话顺序索引的关系数据库中。这种存储方式可根据不同场景进行动态组合。

5,000+

优质数据集

54 个

任务类型

进入经典数据集