MAGIC
收藏Hugging Face2024-12-18 更新2024-12-19 收录
下载链接:
https://huggingface.co/datasets/microsoft/MAGIC
下载链接
链接失效反馈官方服务:
资源简介:
轨迹数据集由MAGIC生成,用于捕捉代理之间在纠正错误SQL查询和生成指南时的交互。每个轨迹数据文件包含以下字段:提示、响应和调用代理。文件名指示交互是否成功导致自我纠正。数据集基于BIRD数据集,该数据集包含12,751个问题-SQL对,涉及37个专业领域,并引入了外部知识以提高SQL查询生成的准确性。
提供机构:
Microsoft
创建时间:
2024-12-11
搜集汇总
数据集介绍

构建方式
MAGIC数据集的构建基于BIRD数据集,通过引入自校正步骤,模拟了代理之间的交互过程,旨在生成用于纠正错误SQL查询的指导方针。每个轨迹数据文件包含了输入提示、代理响应以及调用代理的标识符等信息,标识符如`feedback_agent_call_{iteration_number}`,`correction_agent_call_{iteration_number}`,以及`manager_revises_prompt_iteration_{iteration_number}`。文件名中的'success-True'或'success-False'标记了交互是否成功实现了自校正,未成功的交互在达到最大迭代次数(5次)后终止。
特点
MAGIC数据集的显著特点在于其通过模拟代理间的交互,生成了自校正指南,这对于提高SQL查询的准确性具有重要意义。数据集包含了丰富的交互信息,如提示、响应和代理调用记录,且通过'success-True'或'success-False'标记,提供了交互结果的明确反馈。此外,数据集基于BIRD数据集,涵盖了多个专业领域,增加了任务的复杂性和实用性。
使用方法
MAGIC数据集主要用于研究目的,特别是在文本到SQL任务中,通过分析代理间的交互轨迹,可以深入理解自校正过程并优化SQL查询生成。使用者可以通过解析数据文件中的提示、响应和代理调用信息,研究不同代理在交互中的角色和行为,从而开发和验证新的自校正算法或模型。数据集的交互结果标记为'success-True'或'success-False',为研究者提供了明确的实验结果反馈,便于进行性能评估和改进。
背景与挑战
背景概述
MAGIC数据集由Arian Askari、Christian Poelitz和Xinye Tang于2024年创建,旨在解决上下文文本到SQL转换中的自校正问题。该数据集基于BIRD数据集,通过引入自校正步骤,生成了一系列轨迹数据,记录了代理之间在纠正错误SQL查询时的交互过程。BIRD数据集包含了12,751个问题-SQL对,涵盖37个专业领域,提供了丰富的外部知识以增强SQL查询生成的准确性。MAGIC数据集的核心研究问题是通过代理交互生成自校正指南,从而提升文本到SQL任务的性能,对自然语言处理和数据库查询领域具有重要影响。
当前挑战
MAGIC数据集面临的挑战主要集中在两个方面:一是如何通过代理交互有效地生成自校正指南,确保在有限的迭代次数内(最多5次)实现成功的自校正;二是如何处理BIRD数据集中复杂的外部知识,这些知识增加了SQL查询生成的难度。此外,数据集的构建过程中还面临着如何确保代理交互的多样性和有效性,以及如何评估自校正指南的准确性和实用性等挑战。这些挑战不仅影响了数据集的质量,也对相关领域的研究提出了更高的要求。
常用场景
经典使用场景
MAGIC数据集在自然语言到SQL转换(Text-to-SQL)领域中,主要用于生成自校正指南。通过模拟代理间的交互,数据集记录了如何逐步纠正错误的SQL查询,并生成相应的校正指南。这种交互过程不仅展示了代理如何响应输入提示,还详细记录了每个迭代步骤中的调用信息,从而为研究者提供了一个深入理解自校正机制的实验平台。
衍生相关工作
基于MAGIC数据集,研究者们进一步探索了Text-to-SQL任务中的多种扩展应用,如多轮对话中的SQL生成、复杂查询的分解与优化等。此外,该数据集还激发了关于代理交互机制的深入研究,推动了自然语言处理与数据库技术的交叉融合,为未来的智能系统设计提供了丰富的理论和实践基础。
数据集最近研究
最新研究方向
在自然语言处理领域,特别是文本到SQL(Text-to-SQL)任务中,MAGIC数据集的最新研究方向聚焦于通过生成自校正指南来提升SQL查询的准确性。该数据集通过模拟代理间的交互,捕捉错误SQL查询的校正过程,并生成相应的校正指南。这一研究不仅深化了对复杂数据库查询任务的理解,还为提升SQL生成的自动化和智能化水平提供了新的思路。MAGIC数据集的推出,标志着在处理复杂领域(如区块链和医疗)中的文本到SQL转换任务上,研究者们正朝着更高效、更精确的方向迈进。
以上内容由遇见数据集搜集并总结生成



