中文谣言数据

github2020-07-06 更新2024-05-31 收录

下载链接：

https://github.com/largeapp/Chinese_Rumor_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分：一部分仅包含谣言原微博，另一部分包含转发/评论信息。数据集详细记录了谣言的标题、内容、发布者信息、访问次数和审查结果等。

This dataset comprises Chinese rumor data scraped from Sina Weibo's misinformation reporting platform, divided into two segments: one containing only the original rumor posts, and the other encompassing reposts and comments. The dataset meticulously documents the titles, contents, publisher information, view counts, and review outcomes of the rumors.

创建时间：

2019-01-01

原始信息汇总

数据集概述

第一部分数据集

文件名: rumors_v170613.json
时间范围: 2009年9月4日至2017年6月12日
记录数量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者微博名称
- rumormongerUr: 发布谣言者微博链接
- rumorText: 谣言内容
- visitTimes: 访问次数
- result: 审查结果
- publishTime: 举报时间

第二部分数据集

数据集名称: CED_Dataset
谣言数量: 1538条
非谣言数量: 1849条
数据结构:
- original-microblog: 包含所有微博原文（谣言与非谣言）
- non-rumor-repost: 包含非谣言原文的转发与评论信息
- rumor-repost: 包含谣言原文的转发与评论信息
数据格式: JSON
字段释义:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

搜集汇总

数据集介绍

构建方式

中文谣言数据集的构建基于新浪微博不实信息举报平台，通过抓取平台上的谣言数据，分为两部分进行整理。第一部分数据集包含了从2009年至2017年的31669条谣言，每条谣言以json格式记录，包含谣言编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果及举报时间等字段。第二部分数据集则进一步包含了与微博原文相关的转发和评论信息，共包含谣言1538条和非谣言1849条，每条数据同样以json格式存储，详细记录了微博原文及其相关的转发和评论内容。

使用方法

使用该数据集时，研究者可以通过分析json格式的数据，提取出关键字段进行深入研究。例如，可以通过分析谣言的标题和内容，研究谣言的语言特征和传播模式；通过分析举报者和发布者的信息，研究谣言的来源和传播者特征；通过分析转发和评论信息，研究谣言的传播路径和公众反应。此外，研究者还可以利用该数据集进行谣言检测算法的开发和验证，通过对比谣言和非谣言的数据，提高检测算法的准确性和鲁棒性。

背景与挑战

背景概述

中文谣言数据集是由清华大学的研究团队于2015年首次发布，旨在为社交媒体中的谣言检测与分析提供数据支持。该数据集主要来源于新浪微博的不实信息举报平台，涵盖了从2009年至2017年间的31669条谣言数据。研究团队通过分析这些数据，揭示了中文社交媒体中谣言的传播模式与语义特征，为后续的谣言检测算法研究提供了重要基础。该数据集不仅包含了谣言原文，还提供了转发与评论信息，进一步扩展了其在社交网络分析中的应用范围。

当前挑战

中文谣言数据集在构建与应用过程中面临多重挑战。首先，谣言的语义多样性与传播复杂性使得自动检测算法的设计变得尤为困难，尤其是在中文语境下，语言表达的多样性与歧义性增加了识别的难度。其次，数据集的构建依赖于社交媒体平台的公开数据，数据的完整性与时效性受到限制，部分谣言可能因平台政策或用户隐私问题而无法获取。此外，转发与评论信息的处理也带来了数据噪声与冗余问题，如何有效提取有用信息并去除噪声是构建高质量数据集的关键挑战。

常用场景

经典使用场景

中文谣言数据集广泛应用于社交媒体谣言检测与分析领域。研究者利用该数据集中的谣言文本及其相关转发、评论信息，构建和优化谣言检测模型。通过分析谣言传播的模式、语言特征以及用户行为，研究者能够深入理解谣言在社交媒体中的传播机制，进而开发出高效的谣言识别算法。

解决学术问题

该数据集为社交媒体谣言研究提供了丰富的数据支持，解决了谣言检测中数据稀缺的问题。通过分析谣言文本及其传播路径，研究者能够揭示谣言的语言特征、传播规律以及用户参与行为，从而为谣言自动检测、早期预警和干预策略的制定提供理论依据。此外，该数据集还为谣言传播的语义分析和情感分析提供了重要数据基础。

实际应用

中文谣言数据集在实际应用中具有广泛的价值。社交媒体平台可以利用该数据集训练谣言检测模型，实时监控和过滤虚假信息，提升平台内容的质量和可信度。政府部门和新闻机构也可以借助该数据集，分析谣言传播的趋势和影响，制定有效的辟谣策略，维护社会稳定和公众信任。

数据集最近研究