five

patrickNLP/tapilot-crossing

收藏
Hugging Face2024-06-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patrickNLP/tapilot-crossing
下载链接
链接失效反馈
官方服务:
资源简介:
Tapilot-Crossing是首个用于评估LLM代理在交互式数据分析中表现的基准数据集。它包含1024次用户与机器的交互,涉及1176个用户意图,覆盖四种实际场景:1) Normal,所有问题和用户需求都是明确的,不需要代理采取任何行动;2) Action,代理必须响应用户的反馈或指令;3) Private,考察代理在预训练阶段遇到未见过的包时的真实语义解析能力;4) Private Action,结合了Private和Action的特点,更贴近现实世界的数据分析。数据集还包含两种答案类型:1) Code Generation,测试代理是否能正确解释用户的查询并生成相应的数据分析代码;2) Multiple-Choice questions,评估代理理解执行结果并提供适当见解的能力。此外,数据集还特别评估了LLM代理在数据分析中的六种常见操作:Update_Code、Fast_Fail、Clarification、Best_Guess、Plot_QA和Insight_Mining。

Tapilot-Crossing是首个用于评估LLM代理在交互式数据分析中表现的基准数据集。它包含1024次用户与机器的交互,涉及1176个用户意图,覆盖四种实际场景:1) Normal,所有问题和用户需求都是明确的,不需要代理采取任何行动;2) Action,代理必须响应用户的反馈或指令;3) Private,考察代理在预训练阶段遇到未见过的包时的真实语义解析能力;4) Private Action,结合了Private和Action的特点,更贴近现实世界的数据分析。数据集还包含两种答案类型:1) Code Generation,测试代理是否能正确解释用户的查询并生成相应的数据分析代码;2) Multiple-Choice questions,评估代理理解执行结果并提供适当见解的能力。此外,数据集还特别评估了LLM代理在数据分析中的六种常见操作:Update_Code、Fast_Fail、Clarification、Best_Guess、Plot_QA和Insight_Mining。
提供机构:
patrickNLP
原始信息汇总

数据集概述

Tapilot-Crossing 是首个用于评估大型语言模型(LLM)代理在交互式数据分析中的基准。它包含1024个用户-机器交互,涉及1176个用户意图,涵盖四个实际场景:

  1. Normal:所有问题和用户需求都是明确的,不需要代理采取任何行动。
  2. Action:代理必须响应多样化的用户反馈或指令。
  3. Private:在预训练阶段遇到未见过的包时,考察代理的真实语义解析能力(Zan et al., 2022)。
  4. Private Action:结合Private和Action的特点,更接近真实世界的数据分析。

数据集包含两种答案类型:

  1. 代码生成:测试代理是否能正确解释用户查询并生成相应的数据分析代码。
  2. 多选题:评估代理理解执行结果并为用户提供适当见解的能力。

此外,我们还单独评估LLM代理在数据分析中的6种常见行动:

  1. Update_Code:用户请求修复错误或改进先前查询的条件。
  2. Fast_Fail:当数据内容或资源不足以满足用户请求,或用户查询包含事实错误时,提醒用户。
  3. Clarification:对未明确指定的问题进行澄清,常见于数据分析查询中。
  4. Best_Guess:针对未明确指定的问题,基于数据内容、领域知识和常识知识做出适当假设,以减少不确定性。
  5. Plot_QA:在实际数据分析设置中,代理还应回答有关从图表中得出的见解的用户问题。
  6. Insight_Mining:除了为用户生成代码以获取预期结果外,交互式数据分析代理还负责总结环境中的执行结果,以帮助用户做出明智的决策。

数据集结构

数据集的data目录结构如下:

1. 交互数据目录结构

  • 第一层:数据集领域 顶层按数据集领域组织,例如atp_tennis专注于网球比赛。

  • 第二层:代理配置文件和交互长度 下一层按代理配置文件和交互长度分类:

    • 长交互:由经验丰富的配置文件表示,如“Carlos”擅长组织网球比赛。
    • 短交互:以short_前缀表示,如short_Carlos
  • 第三层:数据模式 数据进一步分为四种模式,反映交互轮次的性质:

    • Action:包含特殊行动(如分析、澄清请求)的交互轮次。
    • Action_Private:Action模式的私有库版本。
    • Normal:用户意图明确,不需要任何特殊行动的交互轮次。
    • Private:Normal模式的私有库版本。
  • 第四层:交互轮次 最后一层按交互轮次组织,提供数据集的细粒度视图。

2. 数据内容文件

  • interaction_data:包含所有交互数据。每个交互轮次(如turn_1_short_1表示短交互,turn_1表示长交互)包含以下文件:

    • meta_data.json:包含问题的元数据,包括result_typeactiondata_id
    • ref_resultpred_result目录:存储参考和预测代码生成的文件(pickles或PNG)。
    • prompt_curr.txt:当前交互轮次的基本提示,用于查询大型语言模型。
    • prompt_curr_oracle.txt(可选):包含当前交互轮次的oracle私有函数的基本提示增强版。
    • ref_code.txt:当前交互轮次的真实解决方案代码。
    • eval.py:当前交互轮次的评估代码。
    • reference_answer.txt(可选):当前交互轮次的多选题正确答案。
    • reference目录:包含交互历史和参考代码:
      • prompt_code_hist.json:包含交互历史的列表字典格式的基本提示,符合GPT输入格式。
      • prompt_code_hist.txt:包含交互历史的基本提示的纯文本格式。
      • ref_code_hist.py:排除当前轮次参考代码的交互历史参考代码,作为模型生成代码的代码上下文。
      • ref_code_all.py:包含完整交互历史和当前轮次代码的参考代码,可生成当前轮次的结果。
  • resource:包含所有表格数据的csv文件,以及名为“decision_company”的私有库的python和json格式。

  • rdb:包含历史关系数据库。我们将用户-AI交互分成多个单轮用户查询和AI答案,存储在按对话顺序索引的关系数据库中。这种存储方式可根据不同场景进行动态组合。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作