text_to_dbt
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/tdelard/text_to_dbt
下载链接
链接失效反馈官方服务:
资源简介:
text_to_dbt 是一个用于微调语言模型的合成指令调优数据集,专注于将自然语言问题转换为 dbt(数据构建工具)的有向无环图(DAG)。数据集包含 1,000 个样本(900 训练,100 测试),每个样本将业务问题与 SQL 模式配对,生成完整的、经过 dbt parse 验证的多文件 dbt 项目结构。数据采用聊天格式(messages 字段),兼容 Qwen3、Mistral 和 OpenAI 聊天模板。典型的 dbt DAG 包含:stg_*.sql(清理和重命名原始源列的暂存模型)、_sources.yml/_stg_*.yml(包含源和列定义的 YAML 模式文件)、int_*.sql(包含连接和业务逻辑的中间模型)以及 fct_*.sql/dim_*.sql(最终面向分析的表)。数据集构建过程包括:从公共 SQL 问题数据集中采样查询、通过 Claude Sonnet 生成 dbt DAG、使用 dbt parse 验证、最后转换为标准的多轮聊天格式。该数据集适用于:微调任何指令调优的 LLM 以生成 dbt DAG、评估基线模型对 dbt 约定的理解程度,以及扩展额外的 dbt 模式(增量模型、快照、测试等)。
创建时间:
2026-03-17



