patrickNLP/tapilot-crossing
收藏Hugging Face2024-06-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patrickNLP/tapilot-crossing
下载链接
链接失效反馈官方服务:
资源简介:
Tapilot-Crossing是首个用于评估LLM代理在交互式数据分析中表现的基准数据集。它包含1024次用户与机器的交互,涉及1176个用户意图,覆盖四种实际场景:1) Normal,所有问题和用户需求都是明确的,不需要代理采取任何行动;2) Action,代理必须响应用户的反馈或指令;3) Private,考察代理在预训练阶段遇到未见过的包时的真实语义解析能力;4) Private Action,结合了Private和Action的特点,更贴近现实世界的数据分析。数据集还包含两种答案类型:1) Code Generation,测试代理是否能正确解释用户的查询并生成相应的数据分析代码;2) Multiple-Choice questions,评估代理理解执行结果并提供适当见解的能力。此外,数据集还特别评估了LLM代理在数据分析中的六种常见操作:Update_Code、Fast_Fail、Clarification、Best_Guess、Plot_QA和Insight_Mining。
Tapilot-Crossing是首个用于评估LLM代理在交互式数据分析中表现的基准数据集。它包含1024次用户与机器的交互,涉及1176个用户意图,覆盖四种实际场景:1) Normal,所有问题和用户需求都是明确的,不需要代理采取任何行动;2) Action,代理必须响应用户的反馈或指令;3) Private,考察代理在预训练阶段遇到未见过的包时的真实语义解析能力;4) Private Action,结合了Private和Action的特点,更贴近现实世界的数据分析。数据集还包含两种答案类型:1) Code Generation,测试代理是否能正确解释用户的查询并生成相应的数据分析代码;2) Multiple-Choice questions,评估代理理解执行结果并提供适当见解的能力。此外,数据集还特别评估了LLM代理在数据分析中的六种常见操作:Update_Code、Fast_Fail、Clarification、Best_Guess、Plot_QA和Insight_Mining。
提供机构:
patrickNLP
原始信息汇总
数据集概述
Tapilot-Crossing 是首个用于评估大型语言模型(LLM)代理在交互式数据分析中的基准。它包含1024个用户-机器交互,涉及1176个用户意图,涵盖四个实际场景:
- Normal:所有问题和用户需求都是明确的,不需要代理采取任何行动。
- Action:代理必须响应多样化的用户反馈或指令。
- Private:在预训练阶段遇到未见过的包时,考察代理的真实语义解析能力(Zan et al., 2022)。
- Private Action:结合Private和Action的特点,更接近真实世界的数据分析。
数据集包含两种答案类型:
- 代码生成:测试代理是否能正确解释用户查询并生成相应的数据分析代码。
- 多选题:评估代理理解执行结果并为用户提供适当见解的能力。
此外,我们还单独评估LLM代理在数据分析中的6种常见行动:
- Update_Code:用户请求修复错误或改进先前查询的条件。
- Fast_Fail:当数据内容或资源不足以满足用户请求,或用户查询包含事实错误时,提醒用户。
- Clarification:对未明确指定的问题进行澄清,常见于数据分析查询中。
- Best_Guess:针对未明确指定的问题,基于数据内容、领域知识和常识知识做出适当假设,以减少不确定性。
- Plot_QA:在实际数据分析设置中,代理还应回答有关从图表中得出的见解的用户问题。
- Insight_Mining:除了为用户生成代码以获取预期结果外,交互式数据分析代理还负责总结环境中的执行结果,以帮助用户做出明智的决策。
数据集结构
数据集的data目录结构如下:
1. 交互数据目录结构
-
第一层:数据集领域 顶层按数据集领域组织,例如
atp_tennis专注于网球比赛。 -
第二层:代理配置文件和交互长度 下一层按代理配置文件和交互长度分类:
- 长交互:由经验丰富的配置文件表示,如“Carlos”擅长组织网球比赛。
- 短交互:以
short_前缀表示,如short_Carlos。
-
第三层:数据模式 数据进一步分为四种模式,反映交互轮次的性质:
- Action:包含特殊行动(如分析、澄清请求)的交互轮次。
- Action_Private:Action模式的私有库版本。
- Normal:用户意图明确,不需要任何特殊行动的交互轮次。
- Private:Normal模式的私有库版本。
-
第四层:交互轮次 最后一层按交互轮次组织,提供数据集的细粒度视图。
2. 数据内容文件
-
interaction_data:包含所有交互数据。每个交互轮次(如turn_1_short_1表示短交互,turn_1表示长交互)包含以下文件:meta_data.json:包含问题的元数据,包括result_type、action和data_id。ref_result和pred_result目录:存储参考和预测代码生成的文件(pickles或PNG)。prompt_curr.txt:当前交互轮次的基本提示,用于查询大型语言模型。prompt_curr_oracle.txt(可选):包含当前交互轮次的oracle私有函数的基本提示增强版。ref_code.txt:当前交互轮次的真实解决方案代码。eval.py:当前交互轮次的评估代码。reference_answer.txt(可选):当前交互轮次的多选题正确答案。reference目录:包含交互历史和参考代码:prompt_code_hist.json:包含交互历史的列表字典格式的基本提示,符合GPT输入格式。prompt_code_hist.txt:包含交互历史的基本提示的纯文本格式。ref_code_hist.py:排除当前轮次参考代码的交互历史参考代码,作为模型生成代码的代码上下文。ref_code_all.py:包含完整交互历史和当前轮次代码的参考代码,可生成当前轮次的结果。
-
resource:包含所有表格数据的csv文件,以及名为“decision_company”的私有库的python和json格式。 -
rdb:包含历史关系数据库。我们将用户-AI交互分成多个单轮用户查询和AI答案,存储在按对话顺序索引的关系数据库中。这种存储方式可根据不同场景进行动态组合。



