FakeOnlineTCC-Corpus

github2022-05-17 更新2024-05-31 收录

下载链接：

https://github.com/Rodrigoguigo/FakeOnlineTCC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

FakeOnlineTCC-Corpus是一个包含巴西葡萄牙语真实和虚假新闻的数据集。该数据集包含两个主要文件夹：FullTexts和SizeNormalizedTexts。FullTexts文件夹包含原始和预处理后的全文，而SizeNormalizedTexts文件夹包含截断后的文本，以避免机器学习实验中的偏差。每个文件包含标题、新闻文本、发布日期和原始网站URL等字段。

The FakeOnlineTCC-Corpus is a dataset comprising authentic and fabricated news articles in Brazilian Portuguese. This dataset is organized into two primary directories: FullTexts and SizeNormalizedTexts. The FullTexts directory houses both the original and preprocessed full texts, whereas the SizeNormalizedTexts directory contains truncated texts designed to mitigate bias in machine learning experiments. Each file within the dataset includes fields such as the headline, news text, publication date, and the URL of the original website.

创建时间：

2022-05-17

原始信息汇总

数据集概述

数据集结构

FullTexts 文件夹：包含原始和预处理的全文文本。
- Original 子文件夹：存放原始收集的文本。
- Preprocessed 子文件夹：存放经过预处理的文本，如移除葡萄牙语停用词或重音。
SizeNormalizedTexts 文件夹：包含截断后的文本，确保假新闻和真新闻对的长度一致，以避免机器学习实验中的偏差。
- Original 子文件夹：存放原始收集的文本。
- Preprocessed 子文件夹：存放经过预处理的文本。

数据集内容

每个文件包含以下五个字段：

titulo：新闻标题
texto：新闻内容
dia：文本原始发布的日期（日）
mes：文本原始发布的日期（月）
ano：文本原始发布的日期（年）
url：文本收集的网站URL

搜集汇总

数据集介绍

构建方式

FakeOnlineTCC-Corpus数据集的构建过程主要分为两个阶段：原始数据的收集与预处理。首先，数据集从多个网站收集了完整的新闻文本，并存储在`FullTexts`文件夹中，其中包含原始文本和经过预处理的文本。预处理步骤包括去除葡萄牙语停用词和重音符号。其次，为了消除机器学习实验中的偏差，数据集还提供了`SizeNormalizedTexts`文件夹，其中包含经过截断处理的文本，确保每对真假新闻的文本长度一致。

使用方法

使用FakeOnlineTCC-Corpus数据集时，研究人员可以根据需求选择不同的文本版本。若需进行文本分析或自然语言处理任务，可直接使用`Preprocessed`文件夹中的预处理文本，以减少噪声干扰。对于机器学习实验，建议使用`SizeNormalizedTexts`文件夹中的截断文本，以确保模型训练过程中不受文本长度差异的影响。数据集的结构化格式便于直接加载为数据框，便于进一步的分析与建模。

背景与挑战

背景概述

FakeOnlineTCC-Corpus数据集由巴西的研究团队于近年创建，旨在为虚假新闻检测领域提供高质量的文本数据。该数据集包含了从多个网站收集的真实与虚假新闻文本，涵盖了不同时间段的新闻内容。研究人员通过对文本进行预处理和标准化处理，确保数据在机器学习实验中的公平性。该数据集的发布为虚假新闻检测算法的开发与评估提供了重要支持，推动了自然语言处理领域在信息真实性验证方面的研究进展。

当前挑战

FakeOnlineTCC-Corpus数据集在构建过程中面临多重挑战。首先，虚假新闻检测本身是一个复杂的任务，需要区分真实与虚假文本的细微差异，这对数据的标注质量和多样性提出了高要求。其次，数据集的构建过程中需处理原始文本的噪声问题，如去除葡萄牙语停用词和重音符号，以确保文本的标准化。此外，为了避免机器学习模型因文本长度差异而产生偏差，研究人员对文本进行了截断处理，这一过程需要精确控制，以确保数据的平衡性和有效性。这些挑战共同构成了该数据集在应用与研究中的核心难点。

常用场景

经典使用场景

FakeOnlineTCC-Corpus数据集在虚假新闻检测领域具有重要应用价值。该数据集通过提供真实的新闻文本与虚假新闻文本的对比，为研究人员提供了一个标准化的实验平台。特别是在自然语言处理（NLP）领域，该数据集常用于训练和评估文本分类模型，帮助研究者探索虚假新闻的文本特征及其传播模式。

解决学术问题

FakeOnlineTCC-Corpus数据集解决了虚假新闻检测中的关键问题，即如何有效区分真实新闻与虚假新闻。通过提供经过预处理的文本数据，该数据集减少了文本长度差异带来的偏差，使得机器学习模型能够更专注于文本内容的分析。这一数据集为虚假新闻的自动识别提供了可靠的数据支持，推动了相关领域的研究进展。

实际应用

在实际应用中，FakeOnlineTCC-Corpus数据集被广泛用于开发虚假新闻检测系统。这些系统可以应用于社交媒体平台、新闻聚合网站以及政府监管机构，帮助用户识别和过滤虚假信息。通过利用该数据集训练的模型，能够有效提升虚假新闻的检测准确率，从而减少虚假信息对社会的影响。

数据集最近研究