NewsPolyML

github2024-06-10 更新2024-06-12 收录

下载链接：

https://github.com/news-polygraph/NewsPolyML

下载链接

链接失效反馈

官方服务：

资源简介：

NewsPolyML数据集是一个包含超过32,000篇经过事实核查的新闻文章的综合集合，来自5家信誉良好的欧洲事实核查机构：AFP、Newtral、Full Fact、Correctiv和Pagella Politica。该数据集涵盖了英语、德语、法语、西班牙语和意大利语5种语言的文章。

The NewsPolyML dataset is a comprehensive collection comprising over 32,000 fact-checked news articles sourced from five reputable European fact-checking organizations: AFP, Newtral, Full Fact, Correctiv, and Pagella Politica. This dataset encompasses articles in five languages: English, German, French, Spanish, and Italian.

创建时间：

2024-06-09

原始信息汇总

数据集概述

数据集名称

NewsPolyML: Multi-lingual European News Fake Assessment Dataset

数据集内容

该数据集包含来自5家欧洲事实核查机构的32,508篇事实核查新闻文章，涵盖5种语言：英语、德语、法语、西班牙语和意大利语。

数据收集与标准化

数据收集自使用ClaimReview标记的IFCN签署机构，并针对文本组件进行了标准化处理。

关键特征

包含丰富的元数据字段，如文章描述、引用链接、声明审查、出版和声明日期及评级。
提供声明和全文的情感分数及语言标签。
使用ClaimReview架构进行结构化和一致的数据收集。

数据集统计

总文章数：32,508
唯一声明数：32,082
平均声明长度（字符）：286.08
平均标题长度（字符）：88.18
平均文章长度（字符）：3,688.87

语言分布

语言	数量	百分比
英语	12,459	38%
德语	3,431	11%
法语	2,899	9%
西班牙语	10,077	31%
意大利语	3,642	11%

源分布

来源	语言	数量
correctiv.org	德语	2,442
factcheck.afp.com	英语	9,212
factual.afp.com	西班牙语	5,793
factuel.afp.com	法语	2,899
faktencheck.afp.com	德语	989
fullfact.org	英语	3,247
pagellapolitica.it	意大利语	3,642
newtral.es	西班牙语	4,284

标签标准化

使用Mixtral模型对不同事实核查组织的评级系统进行标准化，将评级整合为四个主要类别：

真
假
混合
其他

标签分布

标准化标签	数量	百分比
真	2,497	7.7%
其他	256	0.8%
混合	6,221	19.1%
假	23,218	71.4%
错误标记	316	1.0%

数据集访问

论文: NewsPolyML: Multi-lingual European News Fake Assessment Dataset
数据集下载: Download NewsPolyML

搜集汇总

数据集介绍

构建方式

NewsPolyML数据集的构建基于从五家欧洲知名事实核查机构收集的超过32,000篇经过核查的新闻文章。这些机构包括AFP、Newtral、Full Fact、Correctiv和Pagella Politica，涵盖了英语、德语、法语、西班牙语和意大利语五种语言。数据收集过程严格遵循[IFCN签署方](https://ifcncodeofprinciples.poynter.org/signatories)的标准，并利用[ClaimReview标记](https://developers.google.com/search/docs/appearance/structured-data/factcheck)进行结构化数据的提取和归一化处理，确保文本内容的准确性和一致性。

使用方法

NewsPolyML数据集适用于多语言新闻内容的真实性评估和分析。用户可以通过下载链接获取数据集，并利用其丰富的元数据和标准化标签进行深入研究。数据集的标准化标签体系，如TRUE、FALSE、MIXTURE和OTHER，为研究者提供了清晰的分类依据。此外，数据集的结构化设计使得数据处理和分析更加高效，适用于机器学习和自然语言处理领域的多种应用。

背景与挑战

背景概述

NewsPolyML数据集是由五家欧洲知名的事实核查机构（AFP、Newtral、Full Fact、Correctiv和Pagella Politica）共同创建的，旨在提供一个多语言、多来源的事实核查新闻文章集合。该数据集包含了超过32,000篇经过事实核查的新闻文章，涵盖英语、德语、法语、西班牙语和意大利语五种语言。其核心研究问题在于通过标准化的事实核查标签，帮助研究人员和机器学习模型更准确地识别和分类新闻的真实性。这一数据集的创建不仅丰富了多语言事实核查领域的研究资源，还为跨语言信息处理和多语言机器学习提供了宝贵的数据支持。

当前挑战

NewsPolyML数据集在构建过程中面临了多重挑战。首先，不同的事实核查机构采用的评级系统各异，导致标签标准化过程复杂。其次，数据集涵盖五种语言，语言之间的差异增加了数据处理的难度。此外，数据集的构建需要从多个来源收集和整合信息，确保数据的完整性和一致性。最后，如何确保标准化标签的准确性和可靠性，尤其是在处理混合真实性和其他难以分类的声明时，是一个重要的挑战。这些挑战不仅影响了数据集的质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

NewsPolyML数据集在多语言假新闻检测领域具有广泛的应用。其经典使用场景包括构建跨语言的假新闻检测模型，通过分析不同语言中的新闻文本，识别和分类虚假信息。此外，该数据集还可用于研究多语言环境下的情感分析和文本分类，为跨文化传播中的信息真实性评估提供有力支持。

解决学术问题

NewsPolyML数据集解决了多语言环境下假新闻检测的学术难题。通过整合来自多个欧洲国家的多语言新闻数据，该数据集为研究人员提供了丰富的语料库，有助于开发和验证跨语言的假新闻检测算法。其标准化标签系统进一步简化了不同评级系统的整合，提升了研究的可重复性和可靠性。

实际应用

在实际应用中，NewsPolyML数据集被广泛用于开发和部署假新闻检测工具，帮助社交媒体平台和新闻机构识别和过滤虚假信息。此外，该数据集还支持多语言文本分析工具的开发，为跨国企业和国际组织提供跨文化沟通中的信息真实性评估服务。

数据集最近研究