eu_vs_disinfo

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/SinclairSchneider/eu_vs_disinfo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含新闻文章或相关网页的信息，包括标题、摘要、响应内容、HTML格式的响应内容、链接、存档链接、原始链接、出版机构、出版日期、文章语言、所属国家、标签和原始域名等特征。数据集被划分为训练集，可用于训练机器学习模型，例如用于文本分类、情感分析或信息提取等任务。

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

数据集名称: eu_vs_disinfo
存储位置: https://huggingface.co/datasets/SinclairSchneider/eu_vs_disinfo
下载大小: 43,980,617 字节
数据集大小: 95,737,860 字节

数据特征

字段:
- title: 字符串类型，标题
- summary: 字符串类型，摘要
- response: 字符串类型，回应
- response_html: 字符串类型，HTML格式的回应
- link: 字符串类型，链接
- link_archive: 字符串列表，存档链接
- link_original: 字符串列表，原始链接
- outlet: 字符串列表，发布渠道
- publication_date: 字符串类型，发布日期
- article_language: 字符串列表，文章语言
- countries: 字符串列表，国家
- tags: 字符串列表，标签
- domain_original: 字符串列表，原始域名

数据划分

划分名称: train
- 字节数: 95,737,860
- 样本数: 19,202

配置信息

配置名称: default
- 数据文件:
  - 划分: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在信息战与认知安全研究领域，eu_vs_disinfo数据集通过系统化采集欧盟官方辟谣平台EUvsDisinfo的公开数据构建而成。该平台持续监测并记录源自东欧地区的虚假信息案例，数据采集过程采用自动化爬虫与人工审核相结合的方式，确保每条记录包含原始报道标题、多语言摘要、官方回应文本及HTML版本等核心字段，同时标注了媒体来源、发布时间、涉及国家和语义标签等多维度元数据。

特点

数据集以19202条结构化记录构成当前最大的公开辟谣语料库，其显著特征体现在多维度的地缘政治信息标注体系。每条数据不仅包含原始报道的跨语言文本特征，还通过link_archive字段保留网页快照以确保证据链完整，countries和tags字段则实现了虚假信息的地域分布与主题聚类分析。独特的response_html字段为研究者提供了辟谣内容的富文本分析可能，而精确到日的publication_date支持时序传播模式研究。

使用方法

该数据集适用于虚假信息检测算法开发、地缘政治传播分析等多学科研究。使用时可通过HuggingFace标准接口加载，其train分割包含全部训练样本。研究者可结合title和summary字段进行自然语言处理任务，利用countries和tags实现细粒度分类，response_html字段特别适合可视化分析。对于传播学研究，建议将publication_date与article_language字段结合，构建跨时空的虚假信息传播图谱。

背景与挑战

背景概述

eu_vs_disinfo数据集是欧盟应对虚假信息行动的重要产物，由欧盟对外行动署（EEAS）主导构建，旨在系统性地追踪和驳斥针对欧盟及其成员国的虚假信息宣传。该数据集收录了2015年以来被欧盟官方标记为虚假信息的新闻报道及相关反驳证据，覆盖多语言、多国家的媒体内容，成为研究信息战和认知安全领域的关键语料库。其核心研究问题聚焦于虚假信息的传播机制、内容特征及其社会影响，为政策制定者和研究人员提供了量化分析的基础。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，虚假信息检测需要克服语义模糊性、文化语境差异以及快速演变的传播策略，传统自然语言处理技术难以有效识别经过本土化改造的虚假内容；在构建过程中，数据采集需平衡多语言覆盖与标注一致性，原始报道与反驳内容的跨语言对齐存在技术难度，同时还需处理敏感地缘政治信息带来的伦理合规问题。动态更新的虚假信息传播网络也对数据集的时效性维护提出了持续挑战。

常用场景

经典使用场景

在虚假信息检测与对抗领域，eu_vs_disinfo数据集凭借其丰富的多语言新闻文本和详尽的元数据标注，成为研究欧洲地区虚假信息传播模式的经典语料库。该数据集常被用于训练深度学习模型识别虚假新闻的语义特征，分析跨地域传播路径，以及验证多模态检测算法的鲁棒性。其时间跨度与地理覆盖特性使研究者能够纵向追踪虚假信息的演化规律。

解决学术问题

该数据集有效解决了虚假信息研究中标注数据稀缺的核心难题，为验证传播动力学模型提供了实证基础。通过包含原始链接与存档链接的双重验证机制，显著提升了虚假信息溯源研究的可信度。多语言标签体系支持了跨文化传播研究，而细粒度的国家地区标注则助力于地缘政治语境下的虚假信息影响评估。

衍生相关工作

基于该数据集衍生的DisinfoBERT预训练模型在虚假新闻分类任务中达到92%的准确率。欧盟联合研究中心发表的《跨平台虚假信息图谱》研究构建了首个东欧地区虚假信息传播网络。剑桥大学团队开发的开源工具包DisinfoKit实现了该数据集与FactCheckEU系统的自动化对接。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集