five

YnJhY2lzMjAyNnRleHQyc3Fs/pt-br-agentic-text-to-sql-distilled-trajectories

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/YnJhY2lzMjAyNnRleHQyc3Fs/pt-br-agentic-text-to-sql-distilled-trajectories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练巴西葡萄牙语文本到SQL代理的消息蒸馏轨迹。这些轨迹是从LLM判断正确的对话中选择的,并保留了发布代码中使用的代理协议。数据集包含7,442行数据,格式为每行一个messages列表,语言为巴西葡萄牙语,包含SQL和工具调用痕迹。数据集用于监督微调工具使用的文本到SQL代理、研究小型语言模型的轨迹蒸馏、葡萄牙语数据库助手评估以及研究文本到SQL中的澄清和不可回答行为。

This dataset contains message-only distilled trajectories for training tool-using Text-to-SQL agents in Brazilian Portuguese. The trajectories were selected from LLM-judged correct conversations and preserve the agent protocol used in the released code. The dataset includes 7,442 rows, with each row containing a messages list, in Brazilian Portuguese, including SQL and tool-call traces. The dataset is intended for supervised fine-tuning of tool-using Text-to-SQL agents, research on trajectory distillation for small language models, Portuguese database-assistant evaluation, and studying clarification and unanswerability behavior in Text-to-SQL.
提供机构:
YnJhY2lzMjAyNnRleHQyc3Fs
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于在巴西葡萄牙语环境下执行Text-to-SQL任务的工具使用型智能体对话轨迹构建而成。研究人员首先通过大语言模型对智能体与数据库交互过程中的完整对话进行正确性评判,筛选出被判定为正确的对话轨迹,并保留了原始智能体协议中的消息格式。数据集收录了7,442条训练样本,每条样本以结构化的消息列表形式存储,涵盖系统提示、用户提问、带有工具调用信息的助手回复以及工具执行结果等内容。构建过程中融入了三种来源的轨迹:主要来自环境注册数据库的交互、包含误导性元数据的噪声文档变体轨迹以增强模型鲁棒性,以及合成生成的公共采购领域数据以提升跨领域泛化能力。
特点
数据集的核心特点在于其专门聚焦于巴西葡萄牙语场景下工具使用型Text-to-SQL智能体的监督微调。每条轨迹严格遵循预定义的工具调用协议,包括获取数据库表结构(get_table_schema)、执行SQL查询(execute_sql)以及给出最终答案(final_answer)三个核心工具。最终答案形式灵活多样,可能为SQL查询结果、向用户请求澄清的问题,或明确表示问题无法回答的回应,这种设计有助于培养模型处理模糊和不可回答查询的能力。数据集细粒度地记录了智能体调用工具的完整链路,使得模型能够学习到在面对不同数据库和复杂用户意图时如何选择合适的工具和生成正确的SQL语句。
使用方法
数据集的使用便捷高效,用户可通过HuggingFace的datasets库直接加载。只需调用load_dataset函数并指定数据集在HuggingFace上的标识符以及划分名称(train)即可获取完整的训练数据。每个样本以messages列表的形式呈现,兼容主流大语言模型微调框架的对话格式要求。该数据集特别适用于对小型语言模型进行监督微调,使其具备巴西葡萄牙语环境下的Text-to-SQL工具使用能力,同时也为研究轨迹蒸馏技术、葡萄牙语数据库助手的评估以及Text-to-SQL中澄清和不可回答行为的建模提供了宝贵的资源。加载后可直接将messages字段作为训练数据输入模型进行微调。
背景与挑战
背景概述
该数据集发布于2025年,由匿名研究团队构建,聚焦于巴西葡萄牙语环境下的Text-to-SQL智能体训练。核心研究问题在于如何通过知识蒸馏技术,将大型语言模型在结构化数据库查询任务中的推理能力迁移至小型语言模型,以降低部署成本并提升巴西葡萄牙语自然语言到SQL转换的准确性。作为首个针对巴西葡萄牙语领域的Text-to-SQL智能体蒸馏轨迹数据集,它包含了7432条经过LLM评判为正确的对话轨迹,覆盖环境注册、文档噪音变体及合成公共采购等多源场景。该数据集为低资源语言下的数据库交互智能体研究提供了关键基准,推动了小模型在特定语言和领域中的实用化进程。
当前挑战
该数据集所解决的领域挑战包括:巴西葡萄牙语作为低资源语言,缺乏高质量Text-to-SQL训练数据,且现有模型难以处理复杂数据库查询中的澄清请求与不可回答情形;同时,传统大型语言模型推理成本高昂,限制了实际部署。在构建过程中,团队面临多重挑战:需要从LLM生成的海量对话中通过自动评判筛选正确轨迹,确保蒸馏数据质量;需设计多源数据库(环境注册、噪音文档、公共采购)以增强跨领域泛化能力;还需维护包含工具调用(如get_table_schema和execute_sql)的智能体交互协议,以保证蒸馏后的小模型能够正确模拟复杂推理链路。
常用场景
经典使用场景
该数据集的核心经典使用场景在于对葡萄牙语(巴西)文本到SQL智能体的监督式微调。具体而言,研究者可利用其包含的7,442条对话轨迹,训练小语言模型掌握工具调用协议,包括获取表结构(get_table_schema)、执行SQL查询(execute_sql)及生成最终答案(final_answer)等关键步骤。数据集中精心设计的消息序列,使模型能够学习在自然语言问题与数据库操作之间建立精确映射,并处理需要澄清或无法回答的复杂查询场景。
实际应用
在实际应用中,该数据集赋能巴西葡萄牙语用户通过自然语言与数据库进行交互,可广泛部署于环境登记查询、公共采购信息检索等政务与商务场景。经过微调的模型能够理解用户意图,自动生成SQL代码并执行数据库查询,甚至在遇到不完整信息时主动请求澄清,大幅降低了非技术用户获取结构化数据的门槛,提升了葡萄牙语地区数据服务的智能化水平。
衍生相关工作
该数据集衍生了一系列关键研究工作,包括利用其轨迹微调出的Qwen3-4B-Thinking-2507-Text-to-SQL-Agent-FT模型。研究者围绕该数据集探索了从大模型到小模型的轨迹蒸馏技术、跨领域(如从环境数据库到公共采购)的迁移学习策略,以及模型在处理误导性元数据时的鲁棒性提升方法。这些工作共同构成了面向巴西葡萄牙语的智能文本到SQL代理研究体系,为低资源语言NL2SQL领域的后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务