POLygraph: Polish Fake News Dataset

Name: POLygraph: Polish Fake News Dataset
Creator: 亚当·密茨凯维奇大学
Published: 2024-07-01 23:45:21
License: 暂无描述

arXiv2024-07-01 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.01393v1

下载链接

链接失效反馈

官方服务：

资源简介：

POLygraph数据集是由亚当·密茨凯维奇大学创建的波兰假新闻检测资源，包含两个子集：‘fake-ornot’和‘fake-they-say’，总计16,442条数据。数据集通过手动标注，由专家和非专家标注者共同完成。创建过程中采用了API数据访问和网络爬虫技术，确保数据的全面性和多样性。该数据集主要应用于假新闻检测领域，旨在提高内容真实性的识别能力，服务于公共机构、出版商和事实核查组织等。

The POLygraph dataset is a Polish fake news detection resource created by Adam Mickiewicz University. It includes two subsets: 'fake-ornot' and 'fake-they-say', with a total of 16,442 data instances. The dataset was manually annotated jointly by expert and non-expert annotators. During its development, API data access and web crawling technologies were adopted to ensure the comprehensiveness and diversity of the dataset. Primarily applied in the field of fake news detection, this dataset aims to improve the ability to identify content authenticity, serving public institutions, publishers, fact-checking organizations and other relevant stakeholders.

提供机构：

亚当·密茨凯维奇大学

创建时间：

2024-07-01

搜集汇总

数据集介绍

构建方式

POLygraph数据集的构建方式独具匠心，融合了叙事学、比较研究、社会学等多元学科视角，并与自然语言处理和大数据分析相结合。该数据集的收集过程涉及两个主要部分：'fake-ornot'数据集和'fake-they-say'数据集。'fake-ornot'数据集包含了11,360对新闻文章及其对应的真假标签，而'fake-they-say'数据集则包含了5,082篇新闻文章及其相关推文评论。数据收集主要通过专家和非专家的人工标注完成，并开发了先进的机器学习工具进行分析和内容真实性判断。

特点

POLygraph数据集的特点在于其全面性和多样性，涵盖了多种方法从源文献中获取数据，为虚假新闻检测提供了全面的资源。数据集包含了来自多个来源的新闻文章和推文，以及专家和非专家对新闻真实性的标注。此外，数据集还包括了推文作者对新闻文章真实性的态度标注，这些标注为研究虚假新闻提供了多维度的视角。数据集还经过了匿名化处理，以保护个人隐私。

使用方法

使用POLygraph数据集的方法主要涉及以下几个方面：首先，数据集可用于训练和评估虚假新闻检测模型。其次，数据集可用于研究虚假新闻的传播模式和特征。此外，数据集还可以用于研究社交媒体用户对虚假新闻的态度和行为。使用数据集时，研究人员可以依据数据集的特点和需求选择合适的数据子集进行研究和分析。

背景与挑战

背景概述

在当今信息爆炸的时代，虚假新闻的传播对公众信任、社会稳定和民主进程构成了严重威胁。为了应对这一挑战，由波兰亚当·密茨凯维奇大学的多学科团队创建的POLygraph数据集应运而生。该数据集于2024年发布，旨在为波兰语假新闻检测提供独特的资源。POLygraph数据集由两部分组成：“fake-ornot”数据集，包含11,360对新闻文章及其标签，用于识别新闻的真实性；“fake-they-say”数据集，包含5,082篇新闻文章及其相关推文评论。数据集的创建过程中，专家和非专家标注者进行了手动标注，并开发了一款软件工具，利用先进的机器学习技术分析数据并确定内容的真实性。该数据集和工具预计将为公共部门机构、出版商和事实核查组织等提供支持，并推动其他语言类似模型的实施。

当前挑战

POLygraph数据集面临的挑战包括：1) 解决领域问题：数据集旨在解决波兰语假新闻检测问题，这是一个复杂且不断变化的领域，需要不断更新数据集和检测工具以应对新的假新闻战术。2) 构建过程中的挑战：数据收集和标注过程中涉及了大量的人力资源和技术挑战，例如，确保数据的质量和一致性，以及处理主观性和歧义性问题。此外，数据集的规模和复杂性也需要强大的数据处理和分析能力。尽管存在这些挑战，POLygraph数据集为波兰语假新闻检测提供了宝贵的资源，并为未来研究奠定了坚实的基础。

常用场景

经典使用场景

POLygraph数据集被广泛用于波兰语假新闻的检测与分析。它包含两个子数据集：“fake-ornot”和“fake-they-say”，分别用于判断新闻的真实性和分析用户对新闻真实性的态度。这些数据集为研究者提供了丰富的资源，用于开发假新闻检测工具和模型。

实际应用

POLygraph数据集的实际应用场景包括公共部门机构、出版社、证券交易所、金融监管机构、事实核查组织、分析公司等。例如，公共安全机构可以利用该数据集开发假新闻检测工具，以维护社会稳定；出版社可以利用该数据集提高新闻的真实性；证券交易所和金融监管机构可以利用该数据集监测潜在的市场操纵行为。

衍生相关工作

POLygraph数据集的衍生相关工作包括基于该数据集开发的假新闻检测工具和模型。此外，该数据集还启发了其他语言假新闻数据集的构建，如BAN-PL数据集，用于检测波兰语网络服务中的有害和冒犯性内容。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集