India WhatsApp Fake News Dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/sahitpj/India-WhatsAppFakeNews-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从2017年底到2018年6月从印度时报网站抓取的超过百万新闻文章，用于分析印度WhatsApp假新闻的情况。

This dataset comprises over a million news articles scraped from the Times of India website from late 2017 to June 2018, utilized for analyzing the spread of fake news on WhatsApp in India.

创建时间：

2018-11-16

原始信息汇总

数据集概述

名称: India WhatsApp Fake News Dataset
数据来源: 从Times of India网站抓取的新闻文章
时间范围: 2017年底至2018年6月
数据量: 约100万+新闻文章
数据内容: 包含日期、地点和关键词
文件格式: Data.csv 和 .txt 文件
数据处理: 通过关键词筛选与WhatsApp假新闻相关的新闻文章
数据用途: 用于分析印度假新闻趋势，包括假新闻类型及其传播方式

数据集文件

Data.csv: 包含日期、地点和关键词的新闻文章数据
webscrapper: 包含用于从新闻网站提取文件的scrapy蜘蛛
archivelist_finder.py 和 extract_csv_data.py: 用于数据处理过程的参考文件

数据集应用

分析假新闻趋势
理解新闻标题的准确性
研究报纸文章的趋势和质量

数据集下载

完整文章文件: 可通过以下链接获取所有文章的.txt格式文件：Google Drive链接

搜集汇总

数据集介绍

构建方式

该数据集的构建始于从《印度时报》网站上抓取的新闻文章，时间跨度从2017年末至2018年6月。通过使用特定的关键词筛选，研究人员能够识别出与印度WhatsApp假新闻案例相关的新闻报道。值得注意的是，此数据集并非包含假新闻文章本身，而是关于假新闻的报道。数据集的构建过程中，首先通过网络爬虫工具`scrapy`进行数据抓取，随后利用`archivelist_finder.py`和`extract_csv_data.py`脚本进行数据处理和关键词匹配，最终形成包含日期、地点和关键词的`Data.csv`文件。

特点

India WhatsApp Fake News Dataset的一个显著特点是其专注于新闻报道而非假新闻内容本身。该数据集包含了大量关于假新闻案例的报道，这些报道经过关键词筛选和交叉验证，确保了数据的准确性和相关性。此外，数据集的构建过程中采用了先进的网络爬虫技术和数据处理脚本，确保了数据的高效获取和处理。这些特点使得该数据集在研究印度假新闻趋势和新闻报道质量方面具有独特的价值。

使用方法

使用该数据集时，研究者可以首先下载包含所有文章的`.txt`文件，该文件可通过提供的Google Drive链接获取。随后，研究者可以利用`Data.csv`文件中的信息进行进一步的分析，如假新闻趋势分析、新闻标题质量评估等。此外，数据集中的`webscrapper`文件夹提供了网络爬虫工具的参考代码，研究者可以根据需要进行调整和扩展。通过这些方法，研究者可以深入探讨印度假新闻的传播模式和新闻报道的质量问题。

背景与挑战

背景概述

印度WhatsApp虚假新闻数据集（India WhatsApp Fake News Dataset）是由研究人员从《印度时报》网站上抓取的新闻文章构建而成，时间跨度从2017年末至2018年6月。该数据集的核心研究问题聚焦于识别和分析印度境内通过WhatsApp传播的虚假新闻案例，这一问题在当时已成为一个日益严重的社会关注点。通过关键词筛选和交叉验证，研究人员成功提取了与虚假新闻相关的新闻文章，这些数据随后被BBC用于生成有关印度虚假新闻趋势的有用见解。该数据集的创建不仅为研究虚假新闻的传播模式提供了宝贵资源，还为数据新闻学领域开辟了新的研究路径。

当前挑战

印度WhatsApp虚假新闻数据集在构建过程中面临多项挑战。首先，数据抓取和预处理阶段需要精确的关键词匹配和交叉验证，以确保所提取的新闻文章确实与虚假新闻相关。其次，数据集的规模和多样性要求高效的文本处理技术，以识别和分类不同类型的虚假新闻案例。此外，如何确保数据集的准确性和代表性，避免偏见和误导性信息，也是一项重大挑战。最后，该数据集的应用潜力虽大，但在实际操作中如何有效利用这些数据进行趋势分析和新闻质量评估，仍需进一步探索和验证。

常用场景

经典使用场景

在信息传播领域，India WhatsApp Fake News Dataset 被广泛用于分析和理解假新闻的传播趋势。该数据集通过收集自2017年末至2018年中的印度《泰晤士报》新闻文章，筛选出与WhatsApp假新闻相关的报道，为研究者提供了一个详实的数据基础。通过这些数据，研究者可以深入探讨假新闻的传播模式、影响因素及其在社会中的角色，从而为制定有效的信息治理策略提供科学依据。

解决学术问题

India WhatsApp Fake News Dataset 解决了信息传播研究中关于假新闻识别与分析的关键问题。该数据集通过提供大量与假新闻相关的新闻报道，帮助学者们研究假新闻的传播机制、社会影响及其与公众情绪的关联。此外，该数据集还为探索新闻质量评估、新闻标题的真实性等问题提供了宝贵的实证材料，推动了数据新闻学和信息治理领域的学术研究。

衍生相关工作

基于India WhatsApp Fake News Dataset，研究者们开展了多项经典工作。例如，BBC利用该数据集分析了印度假新闻的趋势和传播模式，揭示了假新闻在特定社会事件中的作用。此外，该数据集还激发了关于新闻标题真实性和新闻质量评估的研究，推动了数据新闻学的发展。这些衍生工作不仅丰富了信息传播领域的理论体系，也为实际的信息治理提供了有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集