中文谣言数据

github2019-06-10 更新2024-05-31 收录

下载链接：

https://github.com/L742290644/Chinese_Rumor_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。第一部分数据集包含31669条谣言，每条谣言以json格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果和举报时间。第二部分数据集包含1538条谣言和1849条非谣言，数据集分为微博原文与其转发/评论内容，包含原文、转发和评论的详细信息。

This dataset comprises Chinese rumor data collected from Sina Weibo's misinformation reporting platform, divided into two parts. The first part of the dataset includes 31,669 rumors, each stored in JSON format, containing the rumor's unique code, title, informant information, publisher information, rumor content, number of visits, review results, and reporting time. The second part of the dataset consists of 1,538 rumors and 1,849 non-rumors, with the dataset segmented into original Weibo posts and their reposts/comments, including detailed information on the original posts, reposts, and comments.

创建时间：

2019-06-10

原始信息汇总

数据集概述

第一部分数据集

文件名: rumors_v170613.json
时间范围: 2009年9月4日至2017年6月12日
数据量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者微博名称
- rumormongerUr: 发布谣言者微博链接
- rumorText: 谣言内容
- visitTimes: 访问次数
- result: 审查结果
- publishTime: 举报时间

第二部分数据集

数据集名称: CED_Dataset
数据量: 谣言1538条，非谣言1849条
数据结构: 分为微博原文与其转发/评论内容
文件夹结构:
- original-microblog: 包含所有微博原文
- non-rumor-repost: 包含非谣言原文的转发与评论
- rumor-repost: 包含谣言原文的转发与评论
数据格式: JSON
字段释义:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

搜集汇总

数据集介绍

构建方式

中文谣言数据集的构建，采取了对新浪微博不实信息举报平台的数据抓取方式，精心筛选并整理了自2009年9月4日至2017年6月12日的谣言信息，形成了两个部分的数据集。第一部分数据集包含31669条不包含转发/评论信息的谣言原微博；第二部分数据集则进一步包含了与微博原文相关的转发与评论信息，共计谣言与非谣言数据各1538条与1849条。

特点

该数据集的特点在于其来源的权威性，数据覆盖时间跨度长，且信息丰富。每条谣言数据均以JSON格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果及举报时间等字段。此外，第二部分数据集通过区分微博原文和转发/评论内容，提供了谣言传播过程中的多维度信息，有利于深入分析谣言的传播机制。

使用方法

使用该数据集时，研究者可以根据需求选择第一部分或第二部分。第一部分适用于分析谣言内容本身，而第二部分则可用于研究谣言的传播路径和用户互动。数据集以JSON格式存储，便于通过编程语言进行读取和处理。在引用数据集时，需参照指定的学术论文，以保障学术规范的正确执行。

背景与挑战

背景概述

中文谣言数据集，作为网络谣言研究的实证资源，源自新浪微博不实信息举报平台。该数据集的创建，旨在为中文社交媒体谣言的统计分析提供支持，由刘知远、张乐、涂存超、孙茂松等研究人员于2015年构建。数据集涵盖2009年至2017年间举报的31669条谣言，以及包含转发/评论信息的CED_Dataset，后者包含谣言与非谣言的微博文本及其交互数据。该数据集对理解社交媒体中谣言的传播机制及其影响具有显著的研究价值，并在信息传播、自然语言处理等领域产生了广泛影响。

当前挑战

该数据集在构建与应用过程中面临的挑战主要包括：一是谣言内容的多变性及其与社会热点事件的紧密关联，为谣言的识别和分类带来困难；二是数据集在构建过程中，对谣言和非谣言的界定存在一定主观性，可能会影响数据集的质量；三是数据集在覆盖谣言生命周期全阶段方面存在局限，如缺少谣言澄清信息，这对研究谣言的消散过程构成挑战。

常用场景

经典使用场景

在信息传播迅速的社交网络时代，谣言的识别与处理显得尤为重要。中文谣言数据集为此提供了丰富的样本资源，其经典使用场景在于构建自然语言处理模型，用于谣言检测与分类。通过训练模型识别谣言内容的关键特征，研究者能够有效区分谣言与非谣言，进而为社交平台的内容审查提供技术支持。

解决学术问题

该数据集解决了学术研究中如何准确识别社交媒体上谣言的问题，为谣言传播的机制分析、谣言影响的评估及用户行为研究提供了坚实基础。它的存在促进了信息传播学、社会学以及计算机科学等多个领域的交叉融合，对理解网络谣言生态具有重要意义。

衍生相关工作

基于该数据集，研究者衍生出了一系列相关工作，包括但不限于谣言检测模型的构建与优化、谣言传播网络的挖掘与分析、以及社交用户行为的预测等。这些研究进一步拓展了中文谣言数据集的应用范围，推动了相关领域的学术进展和技术创新。

以上内容由遇见数据集搜集并总结生成