generated_gads_synthetic70

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/ukav/generated_gads_synthetic70

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了使用distilabel工具生成的合成数据，用于Google Ads查询语言（GAQL）的问答。数据集包含了自然语言问题及其对应的GAQL查询，以及生成这些查询的规则和统计数据。数据集适合用于训练和测试GAQL问答系统。

This dataset comprises synthetic data generated via the distilabel tool, tailored for question answering tasks involving the Google Ads Query Language (GAQL). It includes natural language questions, their corresponding GAQL queries, as well as the generation rules and statistical data for these queries. This dataset is suitable for training and testing GAQL-based question answering systems.

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

数据集名称: generated_gads_synthetic70
数据规模: 小于1K样本
总样本数: 69个示例
数据集大小: 1009339字节
下载大小: 146216字节
标签: synthetic, distilabel, rlaif

数据集结构

数据特征

examples: 字符串类型
query: 字符串类型
generation: 字符串类型
model_name: 字符串类型
raw_input_text_generation_0: 空列表
raw_output_text_generation_0: 字符串类型
statistics_text_generation_0: 结构体
- input_tokens: 整型
- output_tokens: 整型
distilabel_metadata: 结构体
- raw_input_text_generation_0: 列表
  - content: 字符串类型
  - role: 字符串类型
- raw_output_text_generation_0: 字符串类型
- statistics_text_generation_0: 结构体
  - input_tokens: 整型
  - output_tokens: 整型

数据划分

训练集: 69个示例，1009339字节

数据集内容

该数据集包含Google Ads查询语言(GAQL)的合成数据，包含自然语言问题与对应GAQL查询的配对。

配置信息

配置名称: default
数据文件路径: data/train-*

数据集用途

该数据集通过distilabel工具生成，主要用于Google Ads查询语言的相关研究和应用。

加载方式

python from datasets import load_dataset ds = load_dataset("ukav/generated_gads_synthetic70")

或指定配置加载： python from datasets import load_dataset ds = load_dataset("ukav/generated_gads_synthetic70", "default")

搜集汇总

数据集介绍

构建方式

在数字营销分析领域，generated_gads_synthetic70数据集通过Distilabel框架采用合成数据生成技术构建。该流程基于预定义的Google Ads查询语言规范，利用大型语言模型将自然语言问题自动转化为结构化GAQL查询。构建过程中严格遵循广告数据报告的语法规则和业务逻辑约束，确保生成的查询语句既符合技术规范又贴近真实业务场景。数据生成机制通过系统提示词引导模型产出多样化的查询对，涵盖从基础指标检索到复杂业务分析的多层次需求。

特点

该数据集显著特征在于其高度结构化的查询-应答对设计，每条数据均包含自然语言问题与对应GAQL查询的双向映射。数据内容深度整合Google Ads API的完整语法体系，涵盖SELECT字段选择、WHERE条件过滤、ORDER BY排序等核心子句。特别注重体现印度中小企业的广告分析需求，包含转化率优化、关键词效能评估等特色场景。数据规模虽紧凑但覆盖了广告效果分析、投放状态监控、关键词策略等典型业务维度，具备较强的领域代表性。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，使用标准load_dataset函数即可获取完整数据。典型应用场景包括训练自然语言到结构化查询的转换模型，或作为评估广告数据理解系统性能的基准数据集。数据字段设计便于提取查询-应答对进行监督学习，其元数据信息还可用于分析模型生成过程中的令牌消耗模式。该数据集特别适用于广告智能分析、查询语义解析等研究方向，为数字营销领域的自然语言处理应用提供高质量训练样本。

背景与挑战

背景概述

在数字营销分析领域，Google Ads Query Language（GAQL）作为结构化查询工具，对广告数据的高效检索具有关键意义。generated_gads_synthetic70数据集由Argilla团队通过Distilabel框架构建，聚焦于自然语言问题与GAQL查询的映射关系。该数据集旨在解决中小型印度企业主在广告效果分析中的实际需求，通过生成多样化的用户提问与对应查询语句，为广告智能分析系统的开发提供核心训练资源。其构建体现了合成数据生成技术在领域特定语言转换中的应用价值，推动了广告数据分析自动化的研究进程。

当前挑战

该数据集致力于解决自然语言到GAQL查询的自动转换问题，其核心挑战在于准确捕捉用户意图与复杂广告数据结构的对应关系。构建过程中需克服多重困难：GAQL语法规则的严格约束要求生成查询必须符合资源类型、字段选择与时间过滤等复杂规范；广告实体状态逻辑的一致性维护，例如在涉及广告组或关键词时必须正确处理启用、暂停或移除状态；合成问题的多样性与真实性平衡，既要覆盖常见业务场景，又需包含边缘案例以避免模型过拟合。这些挑战共同构成了数据集在语义理解与结构生成方面的技术壁垒。

常用场景

经典使用场景

在数字营销分析领域，该数据集通过自然语言问题与GAQL查询语句的配对，为语言模型在广告数据分析场景中的指令遵循能力提供了标准测试基准。其典型应用体现在构建端到端的广告数据查询系统，模型需要准确理解用户关于广告效果、关键词表现等业务问题，并生成符合Google Ads查询语言规范的代码。这种应用模式显著提升了广告数据分析的自动化水平，使非技术背景的营销人员能够通过自然语言直接获取复杂的广告平台数据。

解决学术问题

该数据集有效解决了自然语言到结构化查询语言转换中的语义对齐难题，为研究社区提供了评估文本到代码生成模型性能的基准工具。通过构建高质量的自然语言与GAQL查询对应关系，它助力于探索领域特定语言的语义理解机制，推动了基于强化学习的人类反馈优化方法在专业领域中的应用。这一资源填补了广告技术领域缺乏标准化评估数据的空白，为开发更精准的领域自适应语言模型奠定了数据基础。

衍生相关工作

基于该数据集范式，研究社区衍生出多项重要工作，包括专门针对广告领域的文本到SQL模型微调框架、结合多轮对话的交互式查询系统，以及融合业务规则的语义解析器。这些工作扩展了合成数据在专业领域中的应用边界，特别是在少样本学习场景下展现出色性能。相关成果进一步推动了领域自适应预训练技术的发展，为金融、医疗等垂直行业提供了可借鉴的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集