NewsPolyML
收藏github2024-06-10 更新2024-06-12 收录
下载链接:
https://github.com/news-polygraph/NewsPolyML
下载链接
链接失效反馈官方服务:
资源简介:
NewsPolyML数据集是一个包含超过32,000篇经过事实核查的新闻文章的综合集合,来自5家信誉良好的欧洲事实核查机构:AFP、Newtral、Full Fact、Correctiv和Pagella Politica。该数据集涵盖了英语、德语、法语、西班牙语和意大利语5种语言的文章。
The NewsPolyML dataset is a comprehensive collection comprising over 32,000 fact-checked news articles sourced from five reputable European fact-checking organizations: AFP, Newtral, Full Fact, Correctiv, and Pagella Politica. This dataset encompasses articles in five languages: English, German, French, Spanish, and Italian.
创建时间:
2024-06-09
原始信息汇总
数据集概述
数据集名称
NewsPolyML: Multi-lingual European News Fake Assessment Dataset
数据集内容
该数据集包含来自5家欧洲事实核查机构的32,508篇事实核查新闻文章,涵盖5种语言:英语、德语、法语、西班牙语和意大利语。
数据收集与标准化
数据收集自使用ClaimReview标记的IFCN签署机构,并针对文本组件进行了标准化处理。
关键特征
- 包含丰富的元数据字段,如文章描述、引用链接、声明审查、出版和声明日期及评级。
- 提供声明和全文的情感分数及语言标签。
- 使用ClaimReview架构进行结构化和一致的数据收集。
数据集统计
- 总文章数:32,508
- 唯一声明数:32,082
- 平均声明长度(字符):286.08
- 平均标题长度(字符):88.18
- 平均文章长度(字符):3,688.87
语言分布
| 语言 | 数量 | 百分比 |
|---|---|---|
| 英语 | 12,459 | 38% |
| 德语 | 3,431 | 11% |
| 法语 | 2,899 | 9% |
| 西班牙语 | 10,077 | 31% |
| 意大利语 | 3,642 | 11% |
源分布
| 来源 | 语言 | 数量 |
|---|---|---|
| correctiv.org | 德语 | 2,442 |
| factcheck.afp.com | 英语 | 9,212 |
| factual.afp.com | 西班牙语 | 5,793 |
| factuel.afp.com | 法语 | 2,899 |
| faktencheck.afp.com | 德语 | 989 |
| fullfact.org | 英语 | 3,247 |
| pagellapolitica.it | 意大利语 | 3,642 |
| newtral.es | 西班牙语 | 4,284 |
标签标准化
使用Mixtral模型对不同事实核查组织的评级系统进行标准化,将评级整合为四个主要类别:
- 真
- 假
- 混合
- 其他
标签分布
| 标准化标签 | 数量 | 百分比 |
|---|---|---|
| 真 | 2,497 | 7.7% |
| 其他 | 256 | 0.8% |
| 混合 | 6,221 | 19.1% |
| 假 | 23,218 | 71.4% |
| 错误标记 | 316 | 1.0% |
数据集访问
搜集汇总
数据集介绍

构建方式
NewsPolyML数据集的构建基于从五家欧洲知名事实核查机构收集的超过32,000篇经过核查的新闻文章。这些机构包括AFP、Newtral、Full Fact、Correctiv和Pagella Politica,涵盖了英语、德语、法语、西班牙语和意大利语五种语言。数据收集过程严格遵循[IFCN签署方](https://ifcncodeofprinciples.poynter.org/signatories)的标准,并利用[ClaimReview标记](https://developers.google.com/search/docs/appearance/structured-data/factcheck)进行结构化数据的提取和归一化处理,确保文本内容的准确性和一致性。
使用方法
NewsPolyML数据集适用于多语言新闻内容的真实性评估和分析。用户可以通过下载链接获取数据集,并利用其丰富的元数据和标准化标签进行深入研究。数据集的标准化标签体系,如TRUE、FALSE、MIXTURE和OTHER,为研究者提供了清晰的分类依据。此外,数据集的结构化设计使得数据处理和分析更加高效,适用于机器学习和自然语言处理领域的多种应用。
背景与挑战
背景概述
NewsPolyML数据集是由五家欧洲知名的事实核查机构(AFP、Newtral、Full Fact、Correctiv和Pagella Politica)共同创建的,旨在提供一个多语言、多来源的事实核查新闻文章集合。该数据集包含了超过32,000篇经过事实核查的新闻文章,涵盖英语、德语、法语、西班牙语和意大利语五种语言。其核心研究问题在于通过标准化的事实核查标签,帮助研究人员和机器学习模型更准确地识别和分类新闻的真实性。这一数据集的创建不仅丰富了多语言事实核查领域的研究资源,还为跨语言信息处理和多语言机器学习提供了宝贵的数据支持。
当前挑战
NewsPolyML数据集在构建过程中面临了多重挑战。首先,不同的事实核查机构采用的评级系统各异,导致标签标准化过程复杂。其次,数据集涵盖五种语言,语言之间的差异增加了数据处理的难度。此外,数据集的构建需要从多个来源收集和整合信息,确保数据的完整性和一致性。最后,如何确保标准化标签的准确性和可靠性,尤其是在处理混合真实性和其他难以分类的声明时,是一个重要的挑战。这些挑战不仅影响了数据集的质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
NewsPolyML数据集在多语言假新闻检测领域具有广泛的应用。其经典使用场景包括构建跨语言的假新闻检测模型,通过分析不同语言中的新闻文本,识别和分类虚假信息。此外,该数据集还可用于研究多语言环境下的情感分析和文本分类,为跨文化传播中的信息真实性评估提供有力支持。
解决学术问题
NewsPolyML数据集解决了多语言环境下假新闻检测的学术难题。通过整合来自多个欧洲国家的多语言新闻数据,该数据集为研究人员提供了丰富的语料库,有助于开发和验证跨语言的假新闻检测算法。其标准化标签系统进一步简化了不同评级系统的整合,提升了研究的可重复性和可靠性。
实际应用
在实际应用中,NewsPolyML数据集被广泛用于开发和部署假新闻检测工具,帮助社交媒体平台和新闻机构识别和过滤虚假信息。此外,该数据集还支持多语言文本分析工具的开发,为跨国企业和国际组织提供跨文化沟通中的信息真实性评估服务。
数据集最近研究
最新研究方向
在多语言新闻真实性评估领域,NewsPolyML数据集的最新研究方向主要集中在跨语言信息融合与自动化评估模型的构建。随着全球信息传播的加速,多语言环境下的假新闻检测成为一个紧迫且复杂的挑战。研究者们正致力于开发能够有效处理多语言文本的深度学习模型,以提高跨文化背景下的信息准确性识别能力。此外,数据集的标准化标签生成方法,如Mixtral模型,为研究提供了统一的评估基准,推动了多语言假新闻检测技术的标准化和普及化。这些研究不仅有助于提升公众对新闻信息的信任度,也为政策制定者提供了科学依据,以应对日益严峻的假新闻问题。
以上内容由遇见数据集搜集并总结生成



