ClickbaitTacticsDetection
收藏arXiv2025-09-14 更新2025-09-17 收录
下载链接:
https://github.com/LLM-HITCS25S/ClickbaitTacticsDetection
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了一个名为ClickbaitTacticsDetection的数据集,该数据集由霍隆理工学院计算机科学系和阿菲卡工程学院智能系统系的研究人员创建。该数据集包含通过系统性地增加真实新闻标题并使用预定义的点击诱饵策略目录生成的合成数据。数据集旨在帮助研究人员进行可控的实验和详细的模型行为分析。该数据集支持一个两阶段框架,用于自动分析点击诱饵标题,包括检测和策略归因。在检测阶段,研究人员比较了微调的BERT分类器与大型语言模型(LLMs),如GPT-4.0和Gemini 2.4Flash,在零样本提示和少量样本提示下的表现。在归因阶段,一个专门的BERT基础分类器预测每个标题中存在的特定点击诱饵策略。该数据集对于评估和改进解释性AI模型在点击诱饵检测和策略归因方面的能力具有重要意义。
This paper introduces a dataset named ClickbaitTacticsDetection, developed by researchers from the Department of Computer Science at Holon Institute of Technology and the Department of Intelligent Systems at Afeka College of Engineering. This dataset consists of synthetic data generated by systematically augmenting real news headlines using a predefined catalog of clickbait tactics. It is designed to help researchers conduct controlled experiments and detailed analyses of model behavior. The dataset supports a two-stage framework for the automated analysis of clickbait headlines, including detection and tactic attribution. In the detection stage, researchers compared the performance of fine-tuned BERT classifiers with that of Large Language Models (LLMs) such as GPT-4.0 and Gemini 2.4Flash under both zero-shot prompting and few-shot prompting settings. In the attribution stage, a specialized BERT-base classifier predicts the specific clickbait tactics present in each headline. This dataset holds significant importance for evaluating and improving the capabilities of explainable AI models in clickbait detection and tactic attribution.
提供机构:
霍隆理工学院计算机科学系, 阿菲卡工程学院智能系统系
创建时间:
2025-09-14
原始信息汇总
数据集概述
项目背景
- 项目名称:Bait Buster - Clickbait Detection and Tactics Attribution (NLP-HIT 2025)
- 开发背景:作为哈尔滨工业大学(HIT)2025年NLP课程项目的一部分
任务目标
- 检测点击诱饵标题:使用NLP技术和预训练模型
- 归因点击诱饵策略:为每个标题识别具体的点击诱饵策略或风格模式
- 比较方法:单步GPT提示(使用GPT-4o mini和Gemini-2.0 Flash)与使用BERT的两步分类
任务规范
- 输入:短新闻标题(原始或修改为点击诱饵形式),通常包含15-20个单词
- 输出:
- 二元分类:点击诱饵(1)或非点击诱饵(0)
- 如果分类为点击诱饵:执行多标签分类以识别具体的点击诱饵策略
- 评估指标:
- 点击诱饵检测:准确率、精确率、召回率、F1分数
- 策略归因(多标签分类):宏观/微观F1分数
数据集生成
- 生成方法:使用自定义Python脚本生成
- 基础数据:从名为news_data.csv的CSV文件加载真实新闻标题(包含原始非点击诱饵标题)
- 点击诱饵策略定义(10种):
- 好奇心缺口
- 夸张
- 情感触发
- 煽情主义
- 列表/最高级
- 模糊引用
- 直接呼吁
- 未完成叙事
- 意外关联
- 挑衅性问题
- 生成过程:为每个真实标题随机选择几种策略,使用GPT将标题重写为点击诱饵版本,保留原始事实内容但改变风格以反映所选点击诱饵技术
团队信息
- 团队成员:
- Lihi Nofar
- Aviv Elbaz
- Tomer Portal
- 讲师:Sasha Apartsin
搜集汇总
数据集介绍

构建方式
在数字媒体信息可信度面临严峻挑战的背景下,ClickbaitTacticsDetection数据集通过系统性数据增强方法构建而成。研究团队首先从公开新闻标题语料库中筛选真实非点击诱饵标题作为基础数据,随后采用GPT-4模型根据预定义的十大点击诱饵策略(如好奇缺口、情感触发等)对原始标题进行可控改写。每个生成样本均标注具体应用的修辞策略,形成同时支持二元检测和多标签归因的合成数据集。
特点
该数据集的核心特征体现在其多层次标注体系和策略可控性。所有合成样本均配备精确的战术标签,支持对点击诱饵修辞策略的细粒度分析。数据集涵盖夸张渲染、悬念设置、情感操纵等十余种典型诱导策略,且通过控制变量生成方式确保策略应用的纯净度。其结构化设计使研究者能够分离检测任务与归因任务,为可解释性研究提供理想实验环境。
使用方法
数据集适用于两阶段点击诱饵分析框架的训练与评估。第一阶段可训练BERT分类器或测试大语言模型的零样本/少样本检测性能,第二阶段通过多标签分类器进行战术归因。研究者可通过对比微调模型与提示工程效果,探索准确性与可解释性的平衡。数据集支持端到端管道开发,其战术标签可直接用于生成模型决策的解释依据。
背景与挑战
背景概述
ClickbaitTacticsDetection数据集由以色列霍隆理工学院与阿菲卡工程学院联合团队于2024年创建,聚焦数字媒体中点击诱饵标题的检测与策略归因问题。该数据集通过系统性增强真实新闻标题生成合成样本,标注了夸张、好奇心缺口、情感触发等十类典型点击诱饵策略,旨在推动可解释人工智能在媒体内容可信度分析领域的发展,为透明化内容识别系统提供关键数据支撑。
当前挑战
该数据集需解决点击诱饵多策略混合识别的复杂性挑战,包括语义模糊性处理和跨语言泛化能力不足问题。构建过程中面临真实性与可控性的平衡难题,需通过预定义策略目录约束GPT-4生成过程以确保标注一致性,同时需克服合成数据与真实场景分布差异带来的模型适应性挑战。
常用场景
经典使用场景
在数字媒体内容可信度研究领域,ClickbaitTacticsDetection数据集通过系统化标注的点击诱饵策略为模型评估提供了标准化基准。该数据集最典型的应用场景在于训练和验证可解释性分类模型,研究者利用其合成的新闻标题变体与对应修辞策略标签,能够精确分析机器学习模型对夸张表述、悬念设置等十余种操纵性语言的识别能力。
解决学术问题
该数据集有效解决了点击诱饵检测领域缺乏细粒度解释性的核心问题。通过提供多标签的策略标注,它不仅支持传统的二分类检测,更允许研究者深入分析语言操纵机制,如识别好奇心缺口策略或情感触发手段。这种设计推动了透明化AI系统的发展,使模型决策过程具备可追溯的语言学依据,显著提升了虚假信息检测领域的解释性研究水平。
衍生相关工作
该数据集衍生出多项重要研究工作,包括基于多任务学习的点击诱饵策略联合检测框架,以及结合因果推理的跨模态分析方法。部分研究借鉴其标注体系开发了对抗性生成模型,用于产生具有特定修辞策略的合成数据。这些工作进一步扩展了可解释性检测的边界,特别是在低资源语言环境和多模态场景下的应用探索。
以上内容由遇见数据集搜集并总结生成



