FakeNewsCorpusSpanish

github2018-11-23 更新2024-05-31 收录

下载链接：

https://github.com/helenpy/FakeNewsCorpusSpanish

下载链接

链接失效反馈

官方服务：

资源简介：

西班牙假新闻语料库包含971篇新闻，分为491篇真实新闻和480篇假新闻。该语料库涵盖科学、体育、经济、教育、娱乐、政治、健康、安全和社会9个不同主题。

The Spanish Fake News Corpus comprises 971 news articles, categorized into 491 genuine news pieces and 480 fake news pieces. This corpus spans nine distinct topics: science, sports, economy, education, entertainment, politics, health, security, and society.

创建时间：

2018-11-23

原始信息汇总

数据集概述

数据集名称

名称：FakeNewsCorpusSpanish

数据集内容

描述：该数据集包含2018年1月至7月从多个网站收集的新闻，包括可靠的新闻网站、媒体公司网站、专门验证假新闻的网站以及被指定为经常发布假新闻的网站。所有新闻均为西班牙语。
分类：数据集中的新闻被手动标记为真或假，依据是可靠网站的证据或其他专门网站的验证。
组成：数据集包含971篇新闻，其中491篇为真实新闻，480篇为假新闻。
主题：涵盖9个主题，包括科学、体育、经济、教育、娱乐、政治、健康、安全和社會。

数据集结构

文件：数据集分为训练集和测试集，主要集中在train.xlsx和test.xlsx文件中。
列说明：
- Category：新闻类别（真或假）。
- Topic：相关新闻主题。
- Source：新闻来源名称。
- Headline：新闻标题。
- Text：新闻正文。
- Link：新闻来源的URL。

引用信息

引用文献：Posadas-Durán, J., Gómez-Adorno, H., Sidorov, G., Moreno, J. (2018). Detection of Fake News in a New Corpus for the Spanish Language. Journal of Intelligent & Fuzzy Systems, In Press.

搜集汇总

数据集介绍

构建方式

FakeNewsCorpusSpanish数据集的构建采取了对互联网上多个资源网站的新闻内容进行汇编的方式，时间跨度为2018年1月至7月，所有新闻均以西班牙语撰写。构建过程中，研究人员手动执行了标记工作，并根据可靠性与否将新闻划分为真实或虚假，同时保持新闻间的相关性，并尽力追溯每条新闻的来源。

使用方法

使用FakeNewsCorpusSpanish数据集时，用户可依据提供的train.xlsx和test.xlsx文件进行训练与测试。文件中的列包括新闻类别（真实或虚假）、相关主题、来源名称、新闻标题、新闻正文和来源链接，这些信息为研究提供了丰富的数据支持。在使用数据集时，请遵循引用规范，引用相关论文以尊重知识产权。

背景与挑战

背景概述

FakeNewsCorpusSpanish数据集，诞生于2018年，是由Juan Manuel Ramírez Cruz等研究人员构建的，针对西班牙语新闻领域的专门数据集。该数据集的创建旨在应对虚假新闻检测的迫切需求，其核心研究问题是如何有效地区分真实新闻与虚假新闻。数据集包含了从互联网上多个来源收集的971条新闻，涵盖了科学、体育、经济等多个主题，并经过人工标注，分为真实和虚假两类。该数据集的构建对西班牙语新闻处理领域产生了重要影响，为相关研究提供了宝贵的资源。

当前挑战

在构建该数据集的过程中，研究人员面临了诸多挑战。首先，确保新闻来源的多样性和代表性是一大难题。其次，人工标注过程中的主观性和不一致性也带来了挑战。此外，数据集在解决虚假新闻检测问题的同时，还需应对如何保持新闻间的相关性，以及如何在训练集和测试集之间保持主题分布平衡等技术问题。

常用场景

经典使用场景

在自然语言处理及信息检索领域中，FakeNewsCorpusSpanish数据集被广泛用于构建和评估虚假新闻检测模型。其经典使用场景在于，研究者利用该数据集中的真实与虚假新闻样本，通过机器学习算法进行模型训练，进而实现对新闻真实性的自动判别与分类。

解决学术问题

该数据集的构建解决了学术研究中关于西班牙语虚假新闻识别的标注数据稀缺问题，为研究者提供了可靠的基础资源。它帮助学术界在跨语言虚假新闻检测方面取得了进展，尤其是在西班牙语这一非英语语系领域。此外，数据集的层级分布方式也利于保持不同主题类别之间的比例平衡，从而为算法提供了更为均衡的训练素材。

实际应用

在实际应用中，FakeNewsCorpusSpanish数据集被新闻机构、社交媒体平台及信息筛选工具采用，以辅助鉴别和过滤虚假新闻，提高信息传播的准确性和可靠性。它对于维护网络环境的健康发展具有显著意义。

数据集最近研究