webis/generative-native-ads

Name: webis/generative-native-ads
Creator: webis
Published: 2025-01-17 15:49:08
License: 暂无描述

Hugging Face2025-01-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/webis/generative-native-ads

下载链接

链接失效反馈

官方服务：

资源简介：

Webis Generated Native Ads 2024数据集旨在训练广告拦截系统，以识别对话搜索引擎响应中的广告。数据集包含两个字典：`responses.hf`和`sentence_pairs.hf`，分别用于分类完整响应和句子对是否包含广告。数据集通过查询YouChat和Microsoft Copilot并插入广告生成，使用GPT-4 Turbo进行广告插入。数据集为英文，部分响应包含德语商业或产品名称。

提供机构：

webis

原始信息汇总

Webis Generated Native Ads 2024 数据集概述

数据集描述

数据集摘要

该数据集旨在训练对话式搜索引擎响应中识别广告的广告拦截系统。数据集包含两个字典：

responses.hf: 每个样本是一个完整查询响应，包含广告（标签为1）或不包含广告（标签为0）。
sentence_pairs.hf: 每个样本是从响应中提取的两句话对，如果其中一句包含广告，标签为1。

响应通过收集YouChat和Microsoft Copilot对竞争性关键词查询的响应获得，并使用GPT-4 Turbo在部分响应中插入广告。

支持的任务和排行榜

主要任务是对句子对或响应进行二元分类，判断是否包含广告。数据集提供了训练和评估模型的分割。

语言

数据集为英语，部分响应包含德语商业或产品名称。

数据集结构

数据实例

响应

service: 对话式搜索引擎，值为bing或youchat。
meta_topic: 查询所属的十个类别之一。
query: 获取响应的关键词查询。
advertisement: 广告的产品或品牌名称，无广告时为None。
response: 响应的完整文本。
label: 响应包含广告为1，否则为0。
span: 包含广告的字符跨度，无广告时为None。
sen_span: 包含广告的完整句子的字符跨度，无广告时为None。

句子对

service: 对话式搜索引擎，值为bing或youchat。
meta_topic: 查询所属的十个类别之一。
query: 获取响应的关键词查询。
advertisement: 广告的产品或品牌名称，无广告时为None。
sentence1: 句子对的第一句。
sentence2: 句子对的第二句。
label: 句子对包含广告为1，否则为0。

数据分割

数据集分为训练/验证/测试集，基于广告的产品或品牌确保分割间无重叠，同时最小化查询重叠。

	responses	sentence_pairs
training	11,487	21,100
validation	3,257	6,261
test	2,600	4,845
total	17,344	32,206

数据集创建

策划理由

数据集旨在开发对话式搜索引擎响应的广告拦截器。假设这些系统的提供者可能选择广告作为商业模式，并支持在响应中检测广告的研究。

源数据

数据集通过查询Microsoft Copilot和YouChat，并使用GPT-4插入广告半自动创建。查询是根据www.keyword-tools.org的十个元主题的500个最竞争性查询。

注释

注释过程自动进行，原始响应视为不包含广告（标签为0），插入广告的响应视为包含广告（标签为1）。

个人和敏感信息

原始响应来自商业搜索引擎，假设不披露个人或敏感信息。插入步骤仅提供产品或品牌名称及相关质量进行广告。

使用数据的考虑

数据集的社会影响

该数据集有助于开发对话式搜索引擎的广告拦截系统。

偏见讨论

数据半自动生成，可能包含模型中的偏见，未进行量化调查。

其他已知限制

广告由论文作者选择，与行业标准查询适应性不可比。对原始响应和广告相关陈述的正确性不做声明。

附加信息

摘要

对话式搜索引擎使用大型语言模型生成响应，可能插入广告。数据集包含查询和自动插入广告的生成响应，评估LLM或微调句子转换器是否能检测广告。实验中，LLM在任务上表现不佳，句子转换器精度召回值超过0.9。

引用

@InProceedings{schmidt:2024, author = {Sebastian Schmidt and Ines Zelch and Janek Bevendorff and Benno Stein and Matthias Hagen and Martin Potthast}, booktitle = {WWW 24: Proceedings of the ACM Web Conference 2024}, doi = {10.1145/3589335.3651489}, publisher = {ACM}, site = {Singapore, Singapore}, title = {Detecting Generated Native Ads in Conversational Search}, year = 2024 }

数据集策展人

Sebastian Schmidt, Ines Zelch, Janek Bevendorff, Benno Stein, Matthias Hagen, Martin Potthast

搜集汇总

数据集介绍

构建方式

在对话式搜索引擎日益普及的背景下，Webis Generated Native Ads 2024数据集采用半自动化流程构建。研究团队首先从YouChat和Microsoft Copilot收集针对竞争性关键词查询的原始响应，随后利用GPT-4 Turbo模型在部分响应中智能插入广告内容，从而生成包含广告的样本。整个构建过程通过代码库公开，确保了方法的可复现性，并通过品牌隔离策略划分训练、验证和测试集，有效避免了数据泄露。

使用方法

该数据集主要用于训练和评估对话响应中的广告检测模型。使用者可加载responses或sentence_pairs子集，针对文本或句子对进行二元分类任务。数据已按广告品牌进行划分，确保了评估的严谨性。研究人员可基于该数据集开发高效的广告拦截系统，或探索大语言模型在生成式原生广告识别中的能力边界，相关代码与论文为应用提供了完整的技术参考。

背景与挑战

背景概述

随着对话式搜索引擎的兴起，其基于大型语言模型生成自然语言响应的能力，为原生广告的植入提供了新的媒介。Webis Generated Native Ads 2024数据集由莱比锡大学等机构的研究团队于2024年构建，旨在应对对话搜索中生成式原生广告的检测问题。该数据集通过查询YouChat和Microsoft Copilot获取原始响应，并利用GPT-4 Turbo半自动插入广告内容，从而支持广告屏蔽系统的开发。其核心研究聚焦于利用自然语言处理技术识别嵌入在对话响应中的隐性广告，为维护信息透明性与用户体验提供了重要的研究基础。

当前挑战

该数据集致力于解决对话式搜索引擎中生成式原生广告的二元分类挑战，其难点在于广告文本与自然响应在语义和风格上的高度融合，使得模型需具备区分细微语境差异的能力。在构建过程中，研究团队面临数据真实性与多样性的平衡问题：一方面，广告内容通过生成模型插入，可能引入模型本身的偏见与局限性；另一方面，为确保数据分割的严谨性，需依据广告品牌进行划分并最小化查询重叠，这增加了数据标注与结构设计的复杂性。

常用场景

经典使用场景

在对话式搜索引擎日益普及的背景下，Webis Generated Native Ads 2024数据集为检测生成式原生广告提供了关键资源。该数据集通过模拟广告插入场景，构建了包含广告与无广告的响应文本及句子对，广泛应用于训练和评估二元分类模型。研究者利用其精细标注的广告跨度信息，能够深入分析广告在自然语言响应中的嵌入模式，从而推动对话系统中广告识别技术的发展。

解决学术问题

该数据集有效应对了生成式原生广告检测这一新兴学术挑战。通过提供半自动构建的标注数据，它解决了传统广告检测方法在对话式语境中适应性不足的问题，为探究大语言模型在广告生成与识别中的双重角色提供了实证基础。其跨查询与广告品牌的严格数据划分，确保了模型评估的鲁棒性，显著提升了相关领域研究的可复现性与理论深度。

实际应用

在实际应用层面，该数据集直接服务于对话式搜索引擎的广告过滤系统开发。互联网公司可基于此训练高精度检测模型，自动识别并屏蔽响应中植入的商业推广内容，保障用户体验的纯净性。同时，监管机构亦可借助此类技术工具，对数字平台中的隐性广告进行合规审查，维护网络信息环境的透明与公正。

数据集最近研究