FakeTrueBr

github2023-08-17 更新2024-05-31 收录

下载链接：

https://github.com/jpchav98/FakeTrue.Br

下载链接

链接失效反馈

官方服务：

资源简介：

FakeTrueBr是一个包含假新闻和真实新闻的数据集，每篇假新闻文章都有其对应的主题相关真实新闻文章。该数据集总共包含3582篇新闻文章，假新闻文章来自验证机构Boatos.org，而真实新闻文章则来自可信的新闻源如G1 Globo和Folha de S.Paulo。

FakeTrueBr is a dataset comprising both fake and genuine news articles, where each fake news article is paired with a thematically related authentic news article. The dataset encompasses a total of 3,582 news articles, with the fake news sourced from the verification agency Boatos.org, and the genuine news articles derived from reputable news outlets such as G1 Globo and Folha de S.Paulo.

创建时间：

2023-03-22

原始信息汇总

数据集概述

数据集名称：FakeTrueBr

数据集描述：FakeTrueBr是一个包含假新闻和真实新闻的语料库，每篇假新闻文章都有一篇主题相关的真实新闻文章与之对应。该语料库总共包含3582篇新闻文章。

数据来源：

假新闻来源：通过爬虫从验证机构Boatos.org收集。
真实新闻来源：通过自定义爬虫从可信新闻源如G1 Globo和Folha de S.Paulo收集。

数据集特点：

每篇假新闻都有一篇主题相关的真实新闻作为对照。
数据集通过精心设计的方法和工具进行收集和匹配。

搜集汇总

数据集介绍

构建方式

FakeTrueBr数据集的构建过程体现了高度的系统性和严谨性。该数据集通过爬虫技术从Boatos.org等验证机构收集了大量的虚假新闻文章，并开发了一套定制化的爬虫工具，从G1 Globo和Folha de S.Paulo等可信的新闻来源中提取与虚假新闻主题相关的真实新闻文章。这种成对收集的方式确保了每一条虚假新闻都有其对应的真实新闻，从而为研究提供了丰富的对比材料。

使用方法

FakeTrueBr数据集的使用方法相对直观，研究者可以通过访问GitHub页面获取数据集的详细信息和使用指南。数据集的结构清晰，每条新闻都标注了其真实性，便于用户进行分类、对比和分析。此外，数据集还附带了相关的研究论文，用户可以通过阅读论文了解数据集的构建细节和分类结果，从而更好地利用该数据集进行学术研究。

背景与挑战

背景概述

FakeTrueBr数据集是一个专门针对巴西假新闻的语料库，旨在为假新闻检测研究提供高质量的数据支持。该数据集由巴西的研究团队在XVIII Escola Regional de Banco de Dados会议上发布，包含3582篇新闻文章，每篇假新闻都与其主题相关的真实新闻配对。假新闻来源于Boatos.org等验证机构，而真实新闻则来自G1 Globo和Folha de S.Paulo等可信的新闻来源。这一数据集的构建为假新闻检测、自然语言处理以及媒体可信度研究提供了重要的数据基础，推动了相关领域的研究进展。

当前挑战

FakeTrueBr数据集在构建过程中面临多重挑战。首先，假新闻的收集需要确保其多样性和代表性，同时避免重复和低质量内容。其次，为每篇假新闻匹配主题相关的真实新闻是一项复杂的任务，需要设计高效的爬虫和筛选机制。此外，数据集的构建还需解决新闻来源的可信度问题，确保真实新闻的权威性和准确性。在应用层面，该数据集为假新闻检测模型提供了训练和评估的基础，但同时也对模型的泛化能力和鲁棒性提出了更高要求，尤其是在处理多语言和跨文化背景的新闻内容时。

常用场景

经典使用场景

FakeTrueBr数据集在虚假新闻检测领域具有重要应用价值。通过提供成对的虚假新闻与真实新闻，该数据集为研究者提供了一个理想的实验平台，用于开发和验证自然语言处理模型，尤其是文本分类和语义相似度计算任务。研究者可以利用该数据集训练模型，识别虚假新闻的特征，并评估模型在不同语境下的表现。

解决学术问题

FakeTrueBr数据集解决了虚假新闻检测领域中的关键问题，即如何有效区分虚假新闻与真实新闻。通过提供主题相关的虚假新闻与真实新闻对，该数据集为研究者提供了高质量的训练和测试数据，支持了基于语义分析和内容对比的研究方法。这不仅推动了虚假新闻检测技术的发展，还为理解虚假新闻的传播机制提供了数据支持。

实际应用

在实际应用中，FakeTrueBr数据集可用于构建虚假新闻检测系统，帮助新闻机构和社交媒体平台识别并过滤虚假信息。通过利用该数据集训练的模型，可以自动分析新闻内容的真实性，减少虚假新闻对公众的影响。此外，该数据集还可用于教育领域，帮助公众提高对虚假新闻的辨识能力。

数据集最近研究