中文谣言数据

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/thunlp/Chinese_Rumor_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。第一部分数据集包含31669条谣言，每条谣言以json格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果和举报时间。第二部分数据集包含1538条谣言和1849条非谣言，数据集分为微博原文与其转发/评论内容，以json格式存储，包含微博原文的文字内容、发布用户信息和时间，以及转发/评论的用户ID、文字内容和发布时间。

This dataset comprises Chinese rumor data scraped from Sina Weibo's misinformation reporting platform, divided into two parts. The first part includes 31,669 rumors, each stored in JSON format, containing the rumor's unique code, title, reporter information, publisher information, rumor content, number of visits, review results, and reporting time. The second part consists of 1,538 rumors and 1,849 non-rumors, with the dataset segmented into original Weibo posts and their reposts/comments, stored in JSON format, including the text content of the original Weibo post, the posting user's information and time, as well as the user ID, text content, and posting time of the reposts/comments.

创建时间：

2018-11-09

原始信息汇总

数据集概述

第一部分数据集

名称: 中文谣言数据（./rumors_v170613.json）
时间范围: 2009年9月4日至2017年6月12日
记录数量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者的微博名称
- rumormongerUr: 发布谣言者的微博链接
- rumorText: 谣言内容
- visitTimes: 谣言被访问次数
- result: 谣言审查结果
- publishTime: 谣言被举报时间

第二部分数据集

名称: CED_Dataset
记录数量: 谣言1538条，非谣言1849条
数据结构: 分为微博原文与其转发/评论内容
数据格式: JSON
字段释义:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

搜集汇总

数据集介绍

构建方式

中文谣言数据集通过从新浪微博不实信息举报平台抓取构建，分为两个主要部分。第一部分（rumors_v170613.json）包含31669条谣言原微博，每条记录以json格式存储，涵盖了谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果及发布时间等字段。第二部分（CED_Dataset）则进一步包含了与微博原文相关的转发与评论信息，区分了谣言与非谣言，并详细记录了微博原文及其转发/评论的文字内容、用户信息和发布时间。

使用方法

使用该数据集时，研究者可以首先根据需求选择合适的部分进行分析，如仅分析谣言原微博或结合转发与评论信息进行深入研究。数据集的json格式使得数据加载和处理变得简单，研究者可以使用Python的json库直接读取数据。此外，数据集提供了详细的字段释义，帮助研究者快速理解数据结构。在使用过程中，建议引用相关论文以确保学术诚信和数据来源的可靠性。

背景与挑战

背景概述

中文谣言数据集是由清华大学刘知远、张乐、涂存超和孙茂松等研究人员于2015年创建的，旨在通过分析中文社交媒体上的谣言内容，提供一个系统的谣言识别与分类工具。该数据集从新浪微博的不实信息举报平台抓取，涵盖了从2009年9月4日至2017年6月12日的31669条谣言，为研究者提供了丰富的数据资源。其核心研究问题是如何有效地识别和分类社交媒体中的谣言，这对于提升信息传播的真实性和可靠性具有重要意义。该数据集的发布，极大地推动了中文社交媒体谣言研究领域的发展，为后续的研究工作奠定了坚实的基础。

当前挑战

中文谣言数据集在构建过程中面临了多重挑战。首先，数据的真实性和准确性是首要问题，需要确保每条谣言的来源和内容都经过严格验证。其次，数据集的规模庞大，如何高效地处理和存储这些数据，以及如何从中提取有用的特征，都是技术上的挑战。此外，社交媒体上的谣言往往具有时效性和传播性，如何在数据集中反映这些动态特性，也是一个重要的研究方向。最后，如何构建一个有效的模型来识别和分类这些谣言，以应对不断变化的谣言形式和内容，是该数据集面临的主要挑战。

常用场景

经典使用场景

中文谣言数据集在社交媒体分析领域中具有广泛的应用。其经典使用场景之一是谣言检测与分类。通过分析谣言的文本内容、发布者信息以及举报者的反馈，研究者可以构建机器学习模型，以自动识别和分类社交媒体上的谣言。此外，该数据集还可用于谣言传播路径的研究，通过分析转发和评论信息，揭示谣言在社交网络中的扩散模式。

解决学术问题

中文谣言数据集解决了社交媒体中谣言识别与传播的关键学术问题。首先，它为谣言检测算法提供了丰富的训练数据，使得研究者能够开发出更为精准的谣言识别模型。其次，通过对谣言传播路径的分析，该数据集有助于理解谣言在社交网络中的扩散机制，从而为制定有效的谣言控制策略提供理论支持。此外，该数据集还促进了谣言与非谣言文本的语义分析，提升了自然语言处理技术在社交媒体分析中的应用水平。

实际应用

在实际应用中，中文谣言数据集被广泛用于社交媒体平台的谣言监控与管理。例如，微博等社交平台可以利用该数据集训练的模型，实时检测并标记潜在的谣言信息，从而减少不实信息的传播。此外，政府和公共机构也可以利用该数据集进行舆情分析，及时发现并应对可能引发社会不安的谣言。通过这些应用，该数据集在维护社交媒体环境的健康与稳定方面发挥了重要作用。

数据集最近研究