ADGEN广告数据集

github2023-08-01 更新2024-05-31 收录

下载链接：

https://github.com/wisdom-pan/ChatGLM-LoRA

下载链接

链接失效反馈

官方服务：

资源简介：

数据集使用ADGEN广告数据集，任务为根据instruction生成一段广告词，见本项目data文件夹，每条样本为一行，形式为：{...}

The dataset utilizes the ADGEN advertising dataset, with the task of generating an advertisement copy based on the provided instruction. Refer to the data folder of this project for details. Each sample is presented in a single line, formatted as: {...}

创建时间：

2023-08-01

原始信息汇总

数据集介绍

数据集名称

ADGEN广告数据集

数据集任务

根据提供的instruction生成一段广告词。

数据集结构

每条样本为一行，形式为JSON格式，包含以下字段：

instruction: 描述广告内容的类型、版型、风格等信息。
output: 生成的广告词。

数据集样本示例

json { "instruction": "类型#裤版型#宽松风格#性感图案#线条裤型#阔腿裤", "output": "宽松的阔腿裤这两年真的吸粉不少，明星时尚达人的心头爱。毕竟好穿时尚，谁都能穿出腿长2米的效果宽松的裤腿，当然是遮肉小能手啊。上身随性自然不拘束，面料亲肤舒适贴身体验感棒棒哒。系带部分增加设计看点，还让单品的设计感更强。腿部线条若隐若现的，性感撩人。颜色敲温柔的，与裤子本身所呈现的风格有点反差萌。" }

数据集大小

训练数据 (train.jsonl): 共计114,599条。
验证数据 (dev.jsonl): 共计1,070条。

训练流程

训练命令

shell python3 train_qlora.py --train_args_json chatGLM_6B_QLoRA.json --train_data_path dataset/train.json --eval_data_path dataset/test.json --lora_rank 8 --lora_dropout 0.05 --compute_dtype fp32

训练参数配置

chatGLM_6B_QLoRA.json 包含训练参数，如学习率、批次大小、优化器等。
compute_type 可选值为 fp16, bf16, fp32，默认选择 fp32。

模型推理

推理方法

使用adapter进行推理。
合并adapter和base model进行推理。
量化合并后的模型进行推理。

推理性能测试

对比了8种模型的推理性能，包括原始模型和经过QLoRA训练后的模型。
测试结果显示，经过QLoRA训练后的模型推理速度与原始模型基本一致，但4bit量化模型推理效率有所降低。

QLoRA微调前后推理对比

微调前后的输出质量有显著差异，chatGLM2-6B微调前的输出质量远高于chatGLM-6B。
微调后的模型对数据集外的问题仍能输出高质量答案。

搜集汇总

数据集介绍

构建方式

ADGEN广告数据集的构建基于广告生成任务，每条样本包含一个指令（instruction）和对应的广告词输出（output）。数据集通过结构化指令描述广告的属性，如类型、版型、风格等，并生成相应的广告文案。训练数据共计114599条，验证数据1070条，数据格式为JSONL，便于模型训练和验证。

使用方法

ADGEN广告数据集的使用方法主要包括数据加载、模型训练和推理。用户可通过加载JSONL格式的训练和验证数据，使用ChatGLM-6B或ChatGLM2-6B模型进行QLoRA微调。训练完成后，可通过adapter或合并后的模型进行推理，生成符合指令的广告文案。推理过程中支持量化处理，以降低显存占用并提升推理效率。

背景与挑战

背景概述

ADGEN广告数据集是一个专门用于广告生成任务的数据集，旨在通过自然语言处理技术生成符合特定指令的广告文案。该数据集的创建时间不详，但其应用场景主要集中在广告文案的自动生成领域，尤其是在基于大语言模型的微调任务中表现出色。数据集的核心研究问题是如何通过指令生成高质量的广告文案，从而提升广告创作的效率与质量。ADGEN数据集在广告生成领域具有重要影响力，尤其是在结合ChatGLM等大语言模型进行微调时，能够显著提升模型的生成能力。

当前挑战

ADGEN广告数据集在应用过程中面临多重挑战。首先，广告文案的生成需要具备高度的创造性和语言表达能力，模型不仅需要理解指令中的关键词，还需生成符合品牌调性和目标受众的文案，这对模型的语义理解和生成能力提出了较高要求。其次，数据集的构建过程中，如何确保广告文案的多样性和质量是一个关键问题，尤其是在大规模数据标注和清洗时，如何避免重复和低质量样本的干扰。此外，模型的微调过程中，如何在保持生成质量的同时减少显存占用和计算资源的消耗，也是一个亟待解决的技术难题。

常用场景

经典使用场景

ADGEN广告数据集在自然语言生成领域具有广泛的应用，尤其是在广告文案生成任务中表现出色。该数据集通过提供丰富的广告词生成样本，帮助模型学习如何根据给定的商品属性和风格描述生成吸引人的广告文案。其经典使用场景包括电商平台的自动广告生成、社交媒体广告文案优化以及个性化推荐系统中的广告内容生成。

解决学术问题

ADGEN广告数据集有效解决了自然语言生成领域中的几个关键问题。首先，它提供了大规模的高质量广告文案生成数据，帮助研究人员训练和评估生成模型的性能。其次，该数据集通过结构化输入（如商品属性和风格描述）和自然语言输出（广告文案）的对应关系，推动了基于指令的生成模型的研究。此外，该数据集还促进了模型在生成多样性、语义一致性和创意性方面的改进，为广告文案生成任务提供了重要的基准。

实际应用

在实际应用中，ADGEN广告数据集被广泛应用于电商平台、社交媒体广告投放以及个性化推荐系统。例如，电商平台可以利用该数据集训练模型，自动生成商品描述和促销文案，提升用户体验和转化率。社交媒体广告投放系统则可以通过该数据集优化广告文案，使其更具吸引力和针对性。此外，个性化推荐系统可以利用该数据集生成符合用户兴趣的广告内容，提升广告投放的效果和用户满意度。

数据集最近研究