webis/generative-native-ads
收藏Webis Generated Native Ads 2024 数据集概述
数据集描述
数据集摘要
该数据集旨在训练对话式搜索引擎响应中识别广告的广告拦截系统。数据集包含两个字典:
responses.hf: 每个样本是一个完整查询响应,包含广告(标签为1)或不包含广告(标签为0)。sentence_pairs.hf: 每个样本是从响应中提取的两句话对,如果其中一句包含广告,标签为1。
响应通过收集YouChat和Microsoft Copilot对竞争性关键词查询的响应获得,并使用GPT-4 Turbo在部分响应中插入广告。
支持的任务和排行榜
主要任务是对句子对或响应进行二元分类,判断是否包含广告。数据集提供了训练和评估模型的分割。
语言
数据集为英语,部分响应包含德语商业或产品名称。
数据集结构
数据实例
响应
service: 对话式搜索引擎,值为bing或youchat。meta_topic: 查询所属的十个类别之一。query: 获取响应的关键词查询。advertisement: 广告的产品或品牌名称,无广告时为None。response: 响应的完整文本。label: 响应包含广告为1,否则为0。span: 包含广告的字符跨度,无广告时为None。sen_span: 包含广告的完整句子的字符跨度,无广告时为None。
句子对
service: 对话式搜索引擎,值为bing或youchat。meta_topic: 查询所属的十个类别之一。query: 获取响应的关键词查询。advertisement: 广告的产品或品牌名称,无广告时为None。sentence1: 句子对的第一句。sentence2: 句子对的第二句。label: 句子对包含广告为1,否则为0。
数据分割
数据集分为训练/验证/测试集,基于广告的产品或品牌确保分割间无重叠,同时最小化查询重叠。
| responses | sentence_pairs | |
|---|---|---|
| training | 11,487 | 21,100 |
| validation | 3,257 | 6,261 |
| test | 2,600 | 4,845 |
| total | 17,344 | 32,206 |
数据集创建
策划理由
数据集旨在开发对话式搜索引擎响应的广告拦截器。假设这些系统的提供者可能选择广告作为商业模式,并支持在响应中检测广告的研究。
源数据
数据集通过查询Microsoft Copilot和YouChat,并使用GPT-4插入广告半自动创建。查询是根据www.keyword-tools.org的十个元主题的500个最竞争性查询。
注释
注释过程自动进行,原始响应视为不包含广告(标签为0),插入广告的响应视为包含广告(标签为1)。
个人和敏感信息
原始响应来自商业搜索引擎,假设不披露个人或敏感信息。插入步骤仅提供产品或品牌名称及相关质量进行广告。
使用数据的考虑
数据集的社会影响
该数据集有助于开发对话式搜索引擎的广告拦截系统。
偏见讨论
数据半自动生成,可能包含模型中的偏见,未进行量化调查。
其他已知限制
广告由论文作者选择,与行业标准查询适应性不可比。对原始响应和广告相关陈述的正确性不做声明。
附加信息
摘要
对话式搜索引擎使用大型语言模型生成响应,可能插入广告。数据集包含查询和自动插入广告的生成响应,评估LLM或微调句子转换器是否能检测广告。实验中,LLM在任务上表现不佳,句子转换器精度召回值超过0.9。
引用
@InProceedings{schmidt:2024, author = {Sebastian Schmidt and Ines Zelch and Janek Bevendorff and Benno Stein and Matthias Hagen and Martin Potthast}, booktitle = {WWW 24: Proceedings of the ACM Web Conference 2024}, doi = {10.1145/3589335.3651489}, publisher = {ACM}, site = {Singapore, Singapore}, title = {Detecting Generated Native Ads in Conversational Search}, year = 2024 }
数据集策展人
Sebastian Schmidt, Ines Zelch, Janek Bevendorff, Benno Stein, Matthias Hagen, Martin Potthast




