Fake.Br Corpus

github2020-09-24 更新2024-05-31 收录

下载链接：

https://github.com/rafael1717y/Fake.br-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Fake.Br Corpus是一个包含巴西葡萄牙语的真实和虚假新闻对齐的数据集。该数据集包含完整的文本和大小标准化文本两种版本，每种版本都分为真实新闻和虚假新闻两个部分，并附带各自的元数据信息。

The Fake.Br Corpus is a dataset comprising aligned real and fake news in Brazilian Portuguese. This dataset includes two versions: one with complete texts and another with size-normalized texts. Each version is divided into sections of real news and fake news, accompanied by their respective metadata.

创建时间：

2020-09-24

原始信息汇总

数据集概述

数据集名称

Fake.Br Corpus

数据集结构

full_texts 文件夹
- fake 文件夹: 包含收集的假新闻。
- true 文件夹: 包含收集的真实新闻。
- fake-meta-information 文件夹: 包含每条假新闻的元数据信息。
- true-meta-information 文件夹: 包含每条真实新闻的元数据信息。
元数据信息文件格式（逐行）：

author link category date of publication number of tokens number of words without punctuation number of types number of links inside the news number of words in upper case number of verbs number of subjuntive and imperative verbs number of nouns number of adjectives number of adverbs number of modal verbs (mainly auxiliary verbs) number of singular first and second personal pronouns number of plural first personal pronouns number of pronouns pausality number of characters average sentence length average word length percentage of news with spelling errors emotiveness diversity
size_normalized_texts 文件夹
- 包含截断的文本，其中每对假-真新闻中较长文本被截断（按单词数量）至较短文本的大小。此版本的数据集可用于避免机器学习实验中的偏差。

引用信息

使用该数据集时，请引用以下文献：
- PROPOR 2018会议论文：
  
  Monteiro R.A., Santos R.L.S., Pardo T.A.S., de Almeida T.A., Ruiz E.E.S., Vale O.A. (2018) Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results. In: Villavicencio A. et al. (eds) Computational Processing of the Portuguese Language. PROPOR 2018. Lecture Notes in Computer Science, vol 11122. Springer, Cham
- Expert Systems with Applications论文：
  
  Silva, Renato M., Santos R.L.S, Almeida T.A, and Pardo T.A.S. (2020) "Towards Automatically Filtering Fake News in Portuguese." Expert Systems with Applications, vol 146, p. 113199.

搜集汇总

数据集介绍

构建方式

Fake.Br Corpus的构建过程基于对葡萄牙语新闻的广泛收集与分类。数据集分为两个主要文件夹：`full_texts`和`size_normalized_texts`。`full_texts`文件夹中包含了从原始网站收集的完整新闻文本，进一步细分为`fake`和`true`两个子文件夹，分别存储虚假新闻和真实新闻。每个新闻文件均附有详细的元数据信息，涵盖作者、发布日期、词汇统计等多个维度。`size_normalized_texts`文件夹则对新闻文本进行了长度归一化处理，确保每对虚假与真实新闻的文本长度一致，以减少机器学习实验中的偏差。

使用方法

使用Fake.Br Corpus时，用户可通过`full_texts`文件夹访问完整的新闻文本及其元数据信息，进行详细的语言学分析或虚假新闻检测研究。`size_normalized_texts`文件夹中的归一化文本则适用于需要文本长度一致的实验场景，如机器学习模型的训练与评估。用户可通过简单的文件命名规则快速匹配虚假新闻与真实新闻对，进行对比分析或模型训练。在使用该数据集时，建议引用相关文献，以尊重数据集作者的贡献。

背景与挑战

背景概述

Fake.Br Corpus是由巴西圣保罗大学的研究团队于2018年创建的一个专注于葡萄牙语假新闻检测的数据集。该数据集由Rafael A. Monteiro、Roney L. S. Santos等研究人员主导开发，旨在为葡萄牙语假新闻的自动检测提供高质量的数据支持。数据集包含真实新闻和虚假新闻的文本对，并附有详细的元数据信息，如作者、发布日期、词汇统计等。该数据集在PROPOR 2018会议上首次发布，并在后续研究中被广泛应用于自然语言处理和机器学习领域，特别是在假新闻检测和文本分类任务中展现了重要的研究价值。

当前挑战

Fake.Br Corpus在构建过程中面临了多方面的挑战。首先，假新闻的收集和标注需要高度的准确性，以确保数据集的可靠性和有效性。研究人员必须从大量网络资源中筛选出真实的假新闻样本，并与真实新闻进行配对，这一过程耗时且复杂。其次，文本的长度差异可能导致机器学习模型的偏差，因此数据集提供了经过长度归一化的版本，以减少这种偏差。此外，葡萄牙语的语法和词汇特性使得文本分析和特征提取更具挑战性，特别是在处理动词时态、代词使用和情感表达等方面。这些挑战不仅影响了数据集的构建，也为后续的假新闻检测算法设计带来了复杂性。

常用场景

经典使用场景

Fake.Br Corpus 数据集在自然语言处理领域中被广泛用于虚假新闻检测的研究。通过提供葡萄牙语的真实新闻和虚假新闻的对比文本，该数据集为研究者提供了一个标准化的实验平台，用于开发和测试自动检测虚假新闻的算法。特别是在机器学习和深度学习模型的训练过程中，Fake.Br Corpus 提供了丰富的文本特征和元数据，使得模型能够更准确地识别虚假新闻的语言模式。

解决学术问题

Fake.Br Corpus 解决了虚假新闻检测领域中的关键问题，即缺乏高质量、结构化的葡萄牙语新闻数据集。通过提供真实新闻和虚假新闻的对比文本及其详细的元数据，该数据集使得研究者能够深入分析虚假新闻的语言特征，并开发出更有效的检测算法。这不仅推动了葡萄牙语自然语言处理技术的发展，还为其他语言的虚假新闻检测研究提供了宝贵的参考。

实际应用

在实际应用中，Fake.Br Corpus 被广泛用于新闻媒体、社交媒体平台和政府机构的虚假新闻检测系统。通过利用该数据集训练的模型，这些机构能够自动识别和过滤虚假新闻，减少虚假信息对公众的影响。此外，该数据集还被用于教育领域，帮助新闻学学生和研究者更好地理解虚假新闻的传播机制和语言特征。

数据集最近研究