ro_fake_news

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/upb-nlp/ro_fake_news

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含新闻文章和相关社交媒体互动数据的数据集。它提供了文章的标题、正文、链接、发布日期和作者信息，以及各种社交媒体平台上的互动指标，如分享数、评论数和点赞数。数据集分为有标签的default配置和无标签的unlabeled配置，每个配置都包含训练集、验证集和测试集。

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

在虚假新闻检测领域，ro_fake_news数据集通过精心设计的标注流程构建而成。该数据集包含376条训练样本、125条验证样本和126条测试样本，每条数据均包含新闻标题、正文内容、来源链接及多维度社交媒体分享指标。数据采集过程注重来源多样性和时效性，同时配备了详细的元数据标注，包括情感反应统计和传播影响力指标，为研究提供了丰富的上下文信息。

特点

ro_fake_news数据集的显著特征在于其全面的社交媒体互动维度，不仅包含传统的分享数量统计，还细致记录了Facebook、Twitter、Pinterest等平台的具体互动数据，以及愤怒、悲伤等情感反应指标。数据集采用双配置设计，除标注数据集外还包含7950条未标注数据，为半监督学习提供了可能。每条数据均配备词汇量统计和外部链接域数量，为内容分析和传播模式研究创造了优越条件。

使用方法

研究者可通过HuggingFace数据集库直接加载ro_fake_news，支持分别调用default和unlabeled两种配置。default配置适用于监督学习任务，包含完整的训练、验证和测试划分；unlabeled配置则适用于预训练或半监督学习场景。数据字段包含id、supernarrative、narrative等丰富特征，可直接用于自然语言处理模型训练，特别适合虚假新闻检测、传播影响力分析和社交媒体行为研究等应用方向。

背景与挑战

背景概述

随着数字媒体时代的到来，虚假新闻检测成为自然语言处理领域的重要研究方向。ro_fake_news数据集由罗马尼亚研究团队构建，专注于罗马尼亚语虚假新闻的识别与分析。该数据集通过系统收集新闻文本及其社交媒体传播指标，旨在解决多语言环境下虚假信息传播的监测难题，为东欧地区的媒体可信度研究提供了重要数据支撑。

当前挑战

虚假新闻检测面临语义隐蔽性与跨平台传播复杂性的双重挑战。数据集构建过程中需克服罗马尼亚语语言特性带来的标注困难，同时整合多源社交媒体互动数据以确保特征完整性。领域问题的核心在于区分高度仿真的虚假新闻与真实报道，这要求模型具备深层的语义理解能力和跨模态推理机制。

常用场景

经典使用场景

在虚假新闻检测领域，ro_fake_news数据集通过提供罗马尼亚语新闻样本及其社交媒体传播指标，为自然语言处理模型训练提供了重要资源。研究者利用其标注的叙事结构和情感反应数据，构建分类模型来区分真实新闻与虚假信息，特别适用于跨语言虚假新闻检测任务的基准测试。

解决学术问题

该数据集有效解决了低资源语言虚假新闻检测中的标注数据稀缺问题，为学术界提供了研究东欧地区信息传播模式的实证基础。通过整合多平台社交互动指标，它使研究者能够分析虚假新闻的传播动力学特征，并探索语言特异性对检测模型性能的影响，推动了多语言NLP领域的方法创新。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言虚假新闻检测框架RoFakeBERT，该模型通过迁移学习实现了罗马尼亚语与英语虚假新闻的联合检测。多项研究利用其社交媒体互动特征开发了传播预测模型，这些工作显著提升了东南欧地区虚假新闻研究的理论深度和技术水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集