Philippine-Fake-News-Corpus

github2022-07-12 更新2024-05-31 收录

下载链接：

https://github.com/aaroncarlfernandez/Philippine-Fake-News-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含14,802条‘可信’新闻和7,656条‘不可信’新闻，所有新闻的标题和内容均已去除任何附带的署名或其他形式的元数据。‘可信’新闻来自菲律宾的国家报纸，如菲律宾每日询问者报、马尼拉公报和马尼拉时报。‘不可信’新闻则来自被菲律宾参议院、媒体自由与责任中心和菲律宾天主教主教会议列为假新闻来源的网站。

This dataset comprises 14,802 instances of 'credible' news and 7,656 instances of 'non-credible' news. All news titles and contents have been stripped of any accompanying bylines or other forms of metadata. The 'credible' news is sourced from national newspapers in the Philippines, such as the Philippine Daily Inquirer, Manila Bulletin, and The Manila Times. The 'non-credible' news originates from websites identified as sources of fake news by the Philippine Senate, the Center for Media Freedom and Responsibility, and the Catholic Bishops' Conference of the Philippines.

创建时间：

2019-02-10

原始信息汇总

菲律宾假新闻语料库概述

数据集内容

新闻数量:
- 可信新闻: 14,802篇
- 不可信新闻: 7,656篇

新闻来源

可信新闻来源:
- 菲律宾国家报纸的“国家”类别，包括《菲律宾每日询问者报》、《马尼拉公报》和《马尼拉时报》。
不可信新闻来源:
- 包括《Adobo Chronicles》、《GR Pundit》、《Get Real Philippines》、《VerifiedPH》、《Pinoy Trending Altervista》、《Pinoy Trending News》、《Thinking Pinoy》、《Duterte Today》、《Pinoy News Blogger》、《Pilipinas Online Updates》、《Hot News Philippines》、《News Media Philippines》、《Philippine News Courier》。
- 这些来源被菲律宾参议院、媒体自由与责任中心以及菲律宾天主教主教会议列为假新闻源。

时间范围

新闻日期: 2016年1月1日至2018年10月31日

联系信息

邮箱: actfernandez@mymail.mapua.edu.ph

搜集汇总

数据集介绍

构建方式

Philippine-Fake-News-Corpus数据集的构建基于对菲律宾国内新闻的广泛收集与筛选。数据集中的可信新闻主要来源于菲律宾三大全国性报纸的“国家”类别，包括《菲律宾每日问询报》、《马尼拉公报》和《马尼拉时报》。不可信新闻则从多个被菲律宾参议院、媒体自由与责任中心以及菲律宾天主教主教会议列为虚假新闻来源的网站中提取。所有新闻均经过清洗，去除了标题和内容中的无关元数据，确保数据的纯净性。数据收集时间跨度为2016年1月1日至2018年10月31日。

特点

该数据集的特点在于其明确的二元分类结构，包含14,802条可信新闻和7,656条不可信新闻。每条新闻均经过严格清洗，去除了可能影响分析结果的元数据。可信新闻来源于权威媒体，而不可信新闻则来自被官方机构认定为虚假新闻的网站，确保了数据的可靠性和代表性。数据集的时间跨度覆盖了2016年至2018年，反映了这一时期菲律宾新闻生态的多样性。

使用方法

Philippine-Fake-News-Corpus数据集适用于自然语言处理和虚假新闻检测领域的研究。研究者可以通过分析新闻标题和内容，提取语言特征，构建分类模型以区分可信与不可信新闻。数据集提供了清晰的分类标签，便于监督学习算法的训练与验证。此外，数据集的时间跨度允许研究者进行时间序列分析，探索虚假新闻的传播趋势及其社会影响。

背景与挑战

背景概述

Philippine-Fake-News-Corpus数据集由菲律宾马普阿理工学院的研究人员创建，旨在支持其硕士论文《计算菲律宾假新闻的语言学线索以进行检测》的研究。该数据集涵盖了2016年1月1日至2018年10月31日期间的新闻数据，包含14,802条可信新闻和7,656条不可信新闻。可信新闻主要来源于菲律宾三大全国性报纸的“国家”类别，而不可信新闻则来自多个被菲律宾参议院、媒体自由与责任中心以及菲律宾天主教主教会议列为假新闻来源的网站。该数据集的创建为菲律宾假新闻检测提供了重要的语言学分析基础，推动了相关领域的研究进展。

当前挑战

Philippine-Fake-News-Corpus数据集在构建过程中面临多重挑战。首先，假新闻检测本身是一个复杂的自然语言处理任务，需要从文本中提取有效的语言学线索以区分可信与不可信新闻。其次，数据收集过程中需确保新闻来源的准确性和代表性，尤其是不可信新闻的筛选依赖于权威机构的认定，可能存在主观性和滞后性。此外，数据清洗工作也颇具挑战，需去除新闻标题和内容中的无关元数据（如社交媒体链接、广告信息等），以确保数据的纯净性。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

Philippine-Fake-News-Corpus数据集在假新闻检测领域具有重要应用，尤其是在菲律宾语境下的假新闻识别。该数据集通过提供大量可信与不可信新闻的文本数据，为研究人员提供了丰富的语料库，用于训练和测试假新闻检测模型。其经典使用场景包括自然语言处理（NLP）中的文本分类、情感分析以及假新闻传播模式的研究。

解决学术问题

该数据集解决了假新闻检测中的关键学术问题，特别是在菲律宾语境下的假新闻识别。通过提供大量标注的可信与不可信新闻数据，研究人员能够深入分析假新闻的语言特征、传播模式及其对社会的影响。这不仅推动了假新闻检测技术的发展，还为政策制定者提供了科学依据，以应对假新闻带来的社会挑战。

衍生相关工作

基于Philippine-Fake-News-Corpus数据集，许多相关研究工作得以展开。例如，研究人员开发了基于机器学习的假新闻检测模型，利用该数据集进行训练和验证。此外，该数据集还催生了一系列关于假新闻传播机制和语言特征的研究，进一步推动了假新闻检测领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集