Vietnamese Fake News Dataset - VFND

github2022-05-26 更新2024-05-31 收录

下载链接：

https://github.com/thanhhocse96/vfnd-vietnamese-fake-news-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

VFND是一个关于越南语假新闻的数据集，收集了2017年至2019年间的假新闻，这些新闻被基于一些信息源和交叉引用被分类为真或假。数据集专注于体育、文化、社会、经济、法律、医疗等主题，旨在通过交叉检查信息源、内容和事件来确定新闻的真伪。

VFND is a dataset concerning Vietnamese fake news, which collected fake news from 2017 to 2019. These news items were classified as true or false based on certain information sources and cross-referencing. The dataset focuses on topics such as sports, culture, society, economics, law, and healthcare, aiming to determine the authenticity of news by cross-checking information sources, content, and events.

创建时间：

2022-05-23

原始信息汇总

数据集概述

数据集名称

VIETNAMESE FAKE NEWS DATASET - VFND

数据集描述

VFND是一个关于越南语假新闻的数据集，收集时间从2017年到2019年。该数据集包含了被分类为真或假的越南语新闻，分类依据包括多个新闻来源和社区的交叉参考。

数据集结构

数据集中的每个文件命名结构为：VFND_{Source}_{Label}_{Number}.json。其中：

{Source} 表示新闻来源，包括：
- Ac - 新闻网站的文章来源；
- So - 社交媒体（如Facebook, Twitter, YouTube）上的用户发布内容。
{Label} 表示新闻的真假标签，属于集合 {“Fake”, “Real”}。

数据集内容

数据集主要关注以下主题：体育、文化、社会、经济、法律、医疗等。所有新闻都经过交叉检查其来源、内容和事件以确定真假。

数据集获取方式

数据集的获取和分类方法在每个分类目录下的README.md文件中有详细说明。数据收集使用了news-please库。

数据集目录结构

Fake_Real_Dataset
- Fake
  - Article_Contents
  - Social_Contents
- Real
  - Article_Contents
  - Social_Contents
Tools
Dictionaries
CSV

使用的库

NewsPlease
BeautifulSoup
Fake UserAgent

作者信息

详细作者信息可参考contributors。

引用信息

TeX @misc{ho_quang_thanh_2019_2578917, author = {Ho Quang Thanh and ninh-pm-se}, title = {{thanhhocse96/vfnd-vietnamese-fake-news-datasets: Tập hợp các bài báo tiếng Việt và các bài post Facebook phân loại 2 nhãn Thật & Giả (228 bài)}}, month = feb, year = 2019, doi = {10.5281/zenodo.2578917}, url = {https://doi.org/10.5281/zenodo.2578917} }

搜集汇总

数据集介绍

构建方式

越南假新闻数据集（VFND）的构建基于2017年至2019年间收集的越南语新闻数据。数据集中的新闻通过多个来源进行交叉验证，确保其真实性或虚假性。数据来源包括新闻网站和社交媒体平台如Facebook、Twitter和YouTube。数据集通过使用news-please库进行数据抓取和整理，确保数据的多样性和代表性。每个数据文件按照特定的命名规则进行组织，便于后续的分类和分析。

特点

VFND数据集涵盖了多个主题领域，包括体育、文化、社会、经济、法律和医疗等。数据集中的新闻被明确标记为“真实”或“虚假”，并且通过社区和交叉验证的方式进行分类。特别值得注意的是，数据集还包含了一些默认标记为虚假的新闻，如涉及迷信、未经验证的来源或基于错误科学理论的新闻。这种细致的分类方式使得数据集在假新闻检测领域具有较高的应用价值。

使用方法

使用VFND数据集时，用户需通过电子邮件联系数据集作者获取访问权限，并在相关研究中引用该数据集。数据集以JSON格式存储，每个文件包含新闻的来源、标签和编号信息。用户可以通过分析数据集中的新闻内容和标签，开发假新闻检测算法或进行相关研究。此外，数据集还提供了CSV格式的文件，便于数据分析和处理。用户还可以参考数据集中的工具和字典文件，进一步优化其研究方法和模型。

背景与挑战

背景概述

越南假新闻数据集（Vietnamese Fake News Dataset, VFND）由Ho Quang Thanh及其团队于2017年至2019年间创建，旨在为越南语的假新闻检测提供数据支持。该数据集包含了从新闻网站和社交媒体平台（如Facebook、Twitter、YouTube等）收集的新闻内容，并通过交叉验证和社区分类的方式标注为“真实”或“虚假”。数据集涵盖了体育、文化、社会、经济、法律、医疗等多个主题，为研究越南语假新闻的检测和分类提供了重要的数据基础。VFND的发布对越南语自然语言处理和信息验证领域的研究具有重要意义，推动了相关技术的发展和应用。

当前挑战

VFND数据集在构建和应用过程中面临多重挑战。首先，假新闻检测本身是一个复杂的任务，尤其是在越南语环境下，语言的多样性和文化背景的差异增加了识别的难度。其次，数据集的构建依赖于多源数据的交叉验证，但由于新闻来源的多样性和信息更新的快速性，确保数据的准确性和时效性成为一大挑战。此外，社交媒体上的新闻内容往往包含大量的非正式语言和噪声，如何有效提取和分类这些信息也是一个技术难题。最后，数据集的扩展和维护需要持续的用户反馈和社区支持，如何激励用户参与并确保数据的持续更新是未来需要解决的问题。

常用场景

经典使用场景

Vietnamese Fake News Dataset (VFND) 是一个专门用于越南语假新闻检测的数据集，广泛应用于自然语言处理（NLP）领域中的文本分类任务。该数据集通过提供真实和虚假新闻的标注，为研究人员提供了丰富的语料库，用于训练和评估假新闻检测模型。其经典使用场景包括基于机器学习和深度学习的文本分类算法开发，特别是在越南语语境下的假新闻识别。

实际应用

在实际应用中，VFND 数据集被广泛用于新闻媒体、社交媒体平台和政府机构的假新闻监测系统中。通过利用该数据集训练的模型，这些系统能够自动识别和过滤虚假信息，减少假新闻对公众的误导。此外，该数据集还被用于教育领域，帮助公众提高对假新闻的辨识能力。

衍生相关工作

VFND 数据集催生了许多相关研究，特别是在越南语假新闻检测领域。基于该数据集，研究人员开发了多种先进的文本分类模型，如基于BERT的越南语假新闻检测模型。此外，该数据集还被用于跨语言假新闻检测研究，推动了多语言NLP技术的发展。这些衍生工作不仅丰富了假新闻检测的研究成果，还为其他低资源语言的假新闻检测提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集