five

人机混合新闻推荐数据集

收藏
arXiv2025-04-29 更新2025-04-30 收录
下载链接:
https://beanandrew.github.io/projects/TruthDecay
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由中国科学院计算技术研究所媒体合成与取证实验室构建,包含约75,000篇新闻文章,旨在研究大型语言模型生成的假新闻对新闻生态系统的影响。数据集包含新闻条目、真实性标签和用户-新闻交互记录,用于模拟和评估假新闻在新闻推荐系统中的影响。数据集的构建过程包括重新利用现有的假新闻检测数据集、利用LLM生成新闻数据并进行质量检查。数据集的创建为研究假新闻在新闻推荐系统中的传播和影响提供了宝贵资源,有助于提高新闻生态系统的完整性和可信度。

This dataset was developed by the Media Synthesis and Forensics Laboratory, Institute of Computing Technology, Chinese Academy of Sciences, and contains approximately 75,000 news articles. It aims to investigate the impact of fake news generated by large language models (LLMs) on news ecosystems. The dataset includes news entries, authenticity labels, and user-news interaction records, which are utilized to simulate and evaluate the influence of fake news in news recommendation systems. Its construction process involves repurposing existing fake news detection datasets, generating news data using LLMs, and performing quality checks. The creation of this dataset offers a valuable resource for studying the propagation and impact of fake news in news recommendation systems, and contributes to enhancing the integrity and credibility of news ecosystems.
提供机构:
中国科学院计算技术研究所媒体合成与取证实验室
创建时间:
2025-04-29
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过重构现有的虚假新闻检测数据集GossipCop,整合了新闻条目、真实性标签以及用户-新闻互动记录。研究团队进一步提出了一种基于大语言模型(LLM)参与程度的新闻生成模式分类法,并以此为指导,利用LLM生成多样化类型的新闻。生成过程中,采用了GPT-4和Llama-3等代表性模型,通过精心设计的提示语生成不同级别的新闻内容,并进行严格的质量检查,确保生成新闻的语义和风格与人类撰写新闻的一致性。
特点
该数据集包含约75,000条新闻条目,涵盖人类撰写和LLM生成的新闻,具有丰富的多样性和层次性。其独特之处在于引入了LLM生成新闻的多级分类体系(L1-L3),系统性描述了LLM在新闻生成中的参与程度。此外,数据集通过语义相似性和风格相似性分析,验证了生成新闻与人类新闻的高度可比性,同时通过人工标注验证了生成新闻的真实性标签的准确性。
使用方法
该数据集主要用于研究LLM生成的虚假新闻对神经新闻推荐系统的影响。研究人员可通过模拟LLM生成新闻在不同阶段的渗透(如候选新闻列表、用户互动历史、训练数据等),分析其对新闻排名的影响。具体而言,可利用该数据集训练和评估新闻推荐模型(如LSTUR、NRMS),并通过指标如MRR、nDCG@K等量化真实新闻与虚假新闻的排名优势变化,进而揭示“真相衰减”现象的产生机制。
背景与挑战
背景概述
人机混合新闻推荐数据集由中国科学院计算技术研究所的媒体合成与取证实验室团队于2025年创建,旨在探究大型语言模型(LLMs)生成的虚假新闻对神经新闻推荐系统的影响。该数据集包含约56,000条多样化生成的新闻,覆盖人类撰写与LLM生成的真实及虚假新闻,并整合了用户-新闻交互记录。其核心研究问题是揭示LLM生成虚假新闻在推荐系统中引发的“真相衰减”现象——即真实新闻在排名中逐渐丧失对虚假新闻的优势地位。该研究通过模拟流水线验证了LLM生成内容对新闻生态系统的潜在威胁,为信息可信度分析提供了新视角,相关成果发表于ACM SIGIR 2025,推动了虚假新闻检测与推荐系统安全性的交叉研究。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,LLM生成的虚假新闻因其语义连贯性和低困惑度,易被推荐系统优先推荐,导致传统基于人类新闻训练的检测模型失效,加剧了“真相衰减”现象;构建过程层面,需平衡生成新闻的多样性与真实性,设计涵盖L1-L3生成模式的细粒度分类体系,并通过人工标注验证事件一致性以确保标签可靠性。此外,模拟用户交互时需处理时序数据分割与冷启动问题,而不同LLM(如GPT-4o-mini与Llama-3.1)的生成差异进一步增加了数据复杂性。这些挑战为开发抗LLM污染的推荐算法提出了新要求。
常用场景
经典使用场景
人机混合新闻推荐数据集在新闻推荐系统的研究中扮演了关键角色,特别是在模拟大型语言模型(LLM)生成的虚假新闻对推荐系统的影响方面。该数据集通过整合人类撰写的新闻和LLM生成的新闻,为研究者提供了一个真实且可控的实验环境,用于分析虚假新闻如何影响新闻排名和用户行为。
解决学术问题
该数据集解决了新闻推荐系统中虚假新闻传播的核心问题,揭示了LLM生成的虚假新闻如何导致“真相衰减”现象,即真实新闻在推荐排名中逐渐失去优势。这一发现为理解信息生态系统中的可信度危机提供了实证基础,并推动了针对虚假新闻的检测和缓解技术的研究。
衍生相关工作
该数据集衍生了一系列经典研究,包括基于可信度的新闻推荐框架、LLM生成文本的检测方法以及用户行为模拟技术。这些工作进一步拓展了数据集的应用范围,并为新闻推荐和信息可信度领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作