FakesStorage

github2021-12-21 更新2024-05-31 收录

下载链接：

https://github.com/alcorpas10/FakesStorage

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在构建一个包含互联网上西班牙语假新闻的数据集，目的是为了促进能够识别在线假新闻的系统的发展。数据集仍在建设中。

This project aims to construct a dataset comprising Spanish-language fake news from the internet, with the objective of fostering the development of systems capable of identifying online misinformation. The dataset is currently under construction.

创建时间：

2021-11-16

原始信息汇总

FakesStorage 数据集概述

数据集目的

FakesStorage 项目旨在构建一个西班牙语的假新闻数据集，用于识别网络上的假新闻。该数据集仍在建设中。

数据集内容

数据集包含以下文件，均位于 WebScraping 文件夹中：

fakenewsMaldita.json: 从 Maldita.es 收集的假新闻。
fakenewsNewtral.json: 从 Newtral.es 收集的假新闻。
fakenewsFactCheck.json: 从 FactCheck.org 收集的假新闻。

数据结构

每个 JSON 文件中的数据结构如下：

参数	数据类型	描述
`id`	`int`	新闻文章在数据集中的唯一标识
`titulo`	`string`	新闻文章的标题
`link`	`string`	新闻文章的链接，来自事实核查网站
`words_count`	`dictionary`	文章正文中每个单词的出现次数

示例数据

javascript { "0": { "titulo": "Cuidado con la inmobiliaria Rentex: la nueva inmobiliaria fantasma que trata de hacerse con tu dinero", "link": "https://maldita.es/malditobulo/20211209/inmobiliaria-rentex-inmobiliaria-fantasma-hacerse-con-tu-dinero/", "words_count": { "inmobiliaria": 10, "rentex": 7, "fantasma": 2, "rentames": 2, "alquiler": 3, "apartamentos": 1, "fantasmas": 2, "alquilar": 3, "un": 7, "piso": 9, "milanuncios": 3, "whatsapp": 3, "email": 2, "protected": 1 ... } } }

搜集汇总

数据集介绍

构建方式

FakesStorage数据集通过Python编程语言构建，旨在从多个事实核查网站（如Maldita.es、Newtral.es和FactCheck.org）自动抓取西班牙语假新闻文章。数据集以JSON格式存储，每个新闻条目包含唯一标识符、标题、原文链接以及正文中每个单词的出现次数。这种构建方式不仅确保了数据的多样性和广泛性，还为后续的自然语言处理任务提供了丰富的文本特征。

特点

FakesStorage数据集的特点在于其专注于西班牙语假新闻的收集与分析，涵盖了多个权威事实核查网站的内容。每个新闻条目详细记录了标题、链接以及单词频率统计，为研究者提供了多维度的文本分析基础。此外，数据集的JSON格式设计使得数据易于扩展和集成到现有的机器学习框架中，为假新闻检测系统的开发提供了强有力的支持。

使用方法

FakesStorage数据集的使用方法灵活多样，研究者可以通过加载JSON文件直接访问新闻数据。每个条目的单词频率统计信息为文本分析和特征提取提供了便利，适用于自然语言处理任务如假新闻分类、情感分析等。此外，数据集的开放性和结构化设计使其能够轻松集成到机器学习模型中，帮助开发高效的假新闻检测系统。

背景与挑战

背景概述

FakesStorage数据集由David Bugoi、Daniela Alejandra Córdova等研究人员于近期创建，旨在构建一个西班牙语假新闻数据集，以支持在线假新闻识别系统的开发。该数据集通过Python编程语言实现，主要从Maldita.es、Newtral.es和FactCheck.org等事实核查网站收集假新闻数据。每篇新闻文章包含唯一标识符、标题、链接以及正文中词汇的出现频率统计。该数据集的构建为西班牙语假新闻检测领域提供了重要的数据支持，推动了自然语言处理技术在假新闻识别中的应用。

当前挑战

FakesStorage数据集在构建过程中面临多重挑战。首先，假新闻的识别本身具有复杂性，尤其是在西班牙语语境下，语言表达的多样性和文化背景的差异增加了数据标注的难度。其次，数据收集依赖于事实核查网站，这些网站的数据更新频率和覆盖范围可能影响数据集的时效性和全面性。此外，数据预处理过程中，如何准确提取和统计词汇频率，同时避免噪声干扰，也是一个技术难点。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

FakesStorage数据集在自然语言处理领域中被广泛用于西班牙语假新闻的检测与分类研究。通过从多个事实核查网站（如Maldita.es、Newtral.es和FactCheck.org）收集的假新闻数据，研究者可以训练和验证机器学习模型，以识别和区分真实新闻与虚假信息。该数据集特别适用于文本分析、情感分析和语义理解等任务，为西班牙语假新闻检测提供了重要的数据支持。

衍生相关工作

FakesStorage数据集衍生了许多相关研究，尤其是在假新闻检测和自然语言处理领域。基于该数据集的研究工作包括开发基于深度学习的假新闻分类模型、跨语言假新闻检测算法以及假新闻传播模式分析。这些研究不仅推动了假新闻检测技术的发展，还为其他语言和地区的假新闻研究提供了参考框架。

数据集最近研究