HQP
收藏arXiv2023-05-01 更新2024-06-21 收录
下载链接:
https://github.com/abdumaa/HiQualProp
下载链接
链接失效反馈官方服务:
资源简介:
HQP数据集是由慕尼黑机器学习中心与慕尼黑大学合作创建的,专门用于检测在线宣传。该数据集包含30,000条英文推文,主要来源于俄罗斯-乌克兰战争期间的社交媒体。数据集通过人工标注和验证生成高质量标签,采用严格的多次批注程序确保标签的准确性。HQP数据集旨在帮助研究社区解决社交媒体中宣传内容检测的问题,特别是在敏感的NLP任务中,如宣传检测,强调了高质量标签的重要性。
The HQP Dataset was co-created by the Munich Center for Machine Learning and Ludwig Maximilian University of Munich (LMU Munich), specifically designed for online propaganda detection. It contains 30,000 English tweets primarily sourced from social media during the Russia-Ukraine War. High-quality labels for the dataset are generated through manual annotation and validation, with a rigorous multi-round annotation procedure implemented to ensure label accuracy. The HQP Dataset aims to assist the research community in addressing the challenge of detecting propaganda content on social media, particularly in sensitive natural language processing (NLP) tasks such as propaganda detection, and underscores the critical importance of high-quality labels.
提供机构:
慕尼黑机器学习中心 & 慕尼黑大学
创建时间:
2023-04-28
搜集汇总
数据集介绍

构建方式
在社交媒体内容分析领域,HQP数据集的构建遵循了严谨的多标注者、多批次标注流程。该数据集聚焦于俄乌战争期间的英文推文,通过分层搜索策略分别收集疑似宣传内容与常规战争讨论内容作为候选集。具体而言,研究团队利用Twitter历史API,基于宣传指控关键词筛选回复与引用推文,同时通过战争相关关键词获取背景推文,共收集约320万条候选推文。随后采用加权抽样方法,基于宣传相关短语的逆词频对候选集进行增强采样,以确保数据集中宣传类样本具有足够比例。最终,通过预筛选的标注人员在严格的质量控制机制下,对3万条推文进行了人工标注与验证,确保了标签的高质量与可靠性。
特点
HQP数据集的核心特征在于其高质量的人工标注标签,这填补了在线宣传检测领域缺乏人工验证数据集的空白。与以往依赖弱标签的数据集相比,HQP通过多标注者协议与冲突解决机制,显著提升了标签的准确性与一致性。数据集规模为3万条推文,不仅包含二元分类标签(宣传与否),还进一步标注了宣传策略类别,如针对西方国家、乌克兰、亲俄罗斯政府或针对其他国家的宣传,提供了更细粒度的分析维度。所有数据均源自真实的社交媒体环境,集中于特定地缘政治事件,确保了内容的时效性与现实相关性,为敏感自然语言处理任务提供了可靠的研究基础。
使用方法
HQP数据集主要用于训练与评估在线宣传检测模型,尤其适用于基于预训练语言模型的分类任务。研究者可将数据集按70%、10%、20%的比例划分为训练集、验证集与测试集,采用分层抽样以保持类别分布。在模型训练方面,可对BERT、RoBERTa、BERTweet等预训练模型进行全参数微调,利用数据集中高质量的二元标签优化分类性能。针对标注成本考量,该数据集亦支持小样本学习范式,例如基于提示的学习方法,仅需少量标注样本即可构建有效检测模型。此外,数据集中包含的宣传策略标签可用于多任务学习或辅助任务训练,以提升模型对宣传内容异质性的捕捉能力。
背景与挑战
背景概述
随着社交媒体成为信息传播的关键渠道,在线宣传内容对公共舆论的潜在影响日益凸显,其检测成为自然语言处理领域的重要研究方向。在此背景下,慕尼黑机器学习中心与慕尼黑大学的研究团队于2023年推出了HQP数据集,旨在通过高质量的人工标注,解决现有宣传检测数据集中弱标签噪声过高的问题。该数据集聚焦于俄乌战争期间的英文推文,规模达三万条,核心研究在于探索高质量标注对敏感NLP任务性能的提升作用,为宣传检测模型的训练提供了更为可靠的基准,推动了该领域向精细化、可信化方向发展。
当前挑战
在线宣传检测任务本身面临诸多挑战:宣传内容常以隐晦、多样化的叙事策略呈现,与正常言论的边界模糊,模型需具备深层语义理解与上下文推理能力方能准确辨识。在数据集构建过程中,研究团队亦遭遇显著困难:社交媒体中宣传内容占比极低,存在严重的类别不平衡问题;为确保标注质量,需设计严谨的多批注者、多批次流程,并解决标注者间分歧,这大幅增加了时间与经济成本。此外,宣传策略随时间演变,要求数据集具备动态更新能力,进一步凸显了标注效率与质量之间的平衡难题。
常用场景
经典使用场景
在社交媒体内容分析领域,HQP数据集为在线宣传检测提供了高质量标注基准。该数据集通过人工标注构建,包含三万条与俄乌战争相关的英文推文,其核心应用场景在于训练和评估自然语言处理模型,以精准识别社交媒体中的宣传性内容。研究者利用该数据集能够系统探究宣传文本的语言特征与传播模式,为自动化检测技术提供可靠的数据支撑。
解决学术问题
HQP数据集有效解决了在线宣传检测领域因弱标注导致的标签噪声问题。传统数据集依赖自动化弱标注,标签准确率有限,制约了模型性能。该数据集通过严谨的多标注者批注流程,提供了经过人工验证的高质量标签,使得预训练语言模型的检测性能显著提升,AUC指标改善约44%。这一突破强调了敏感NLP任务中高质量标注的重要性,为后续研究奠定了数据可靠性基础。
衍生相关工作
HQP数据集推动了在线宣传检测方法的创新研究。基于其高质量标注,学者们发展了结合辅助任务提示学习的技术架构,如LM-BFF-AT模型,通过融合宣传策略标签提升小样本学习性能。该数据集亦促进了跨模型比较研究,验证了BERT、RoBERTa和BERTweet等预训练语言模型在宣传检测任务上的鲁棒性,为后续多模态宣传分析、对抗性样本检测等方向提供了数据基础。
以上内容由遇见数据集搜集并总结生成



