中文谣言数据

github2020-03-27 更新2024-05-31 收录

下载链接：

https://github.com/fighting41love/Chinese_Rumor_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。第一部分数据集包含31669条谣言，每条谣言以json格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果和举报时间。第二部分数据集包含1538条谣言和1849条非谣言，包括微博原文及其转发/评论信息，以json格式存储，包含微博原文的文字内容、发布用户信息、发布时间，以及转发/评论的用户ID、文字内容和发布时间。

This dataset comprises Chinese rumor data crawled from Sina Weibo's misinformation reporting platform, split into two subsets. The first subset contains 31,669 rumor entries, with each entry stored in JSON format, including its unique identifier, title, reporter information, publisher information, rumor content, visit count, review outcome, and reporting time. The second subset includes 1,538 rumors and 1,849 non-rumor posts, featuring original Weibo posts alongside their repost and comment information. Each entry in this subset is stored in JSON format, containing the textual content of the original Weibo post, information of the posting user, publishing time, as well as the user ID, textual content, and publishing time of each repost or comment.

创建时间：

2020-01-24

原始信息汇总

数据集概述

第一部分数据集

文件名: rumors_v170613.json
时间范围: 2009年9月4日至2017年6月12日
数据量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者微博名称
- rumormongerUrl: 发布谣言者微博链接
- rumorText: 谣言内容
- visitTimes: 访问次数
- result: 审查结果
- publishTime: 举报时间

第二部分数据集

数据集名称: CED_Dataset
数据量: 谣言1538条，非谣言1849条
数据结构: 分为微博原文与其转发/评论内容
文件夹结构:
- original-microblog: 包含所有微博原文
- non-rumor-repost: 包含非谣言原文的转发与评论
- rumor-repost: 包含谣言原文的转发与评论
数据格式: JSON
字段释义:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

搜集汇总

数据集介绍

构建方式

中文谣言数据集的构建基于新浪微博不实信息举报平台，涵盖了从2009年9月4日至2017年6月12日期间的大量谣言信息。数据集分为两部分：一部分仅包含谣言原微博，另一部分则包含谣言及其相关的转发和评论信息。数据通过系统化的抓取和整理，确保每条谣言信息的唯一性和完整性，包括谣言的标题、内容、发布者信息、举报者信息、访问次数、审查结果及发布时间等关键字段。

特点

该数据集的特点在于其全面性和多样性，不仅包含了谣言的原始文本，还提供了与之相关的转发和评论信息，为研究谣言传播机制和用户互动提供了丰富的数据支持。此外，数据集的结构化设计使得每条谣言信息都具有唯一编码，便于追踪和分析。数据的时间跨度长，涵盖了多个年份的谣言信息，为时间序列分析提供了可能。

使用方法

使用该数据集时，研究者可以通过解析json格式的数据文件，提取所需的谣言信息及其相关字段。对于仅关注谣言原微博的研究，可以直接使用第一部分数据集；若需深入研究谣言的传播路径和用户互动，则可利用第二部分数据集，分析微博原文及其转发和评论信息。引用数据集时，请遵循提供的引用格式，确保学术诚信。

背景与挑战

背景概述

中文谣言数据集是由刘知远、张乐、涂存超和孙茂松等研究人员于2015年创建的，旨在通过分析中文社交媒体上的谣言，提供一个用于谣言检测和分析的标准数据集。该数据集从新浪微博的不实信息举报平台抓取，涵盖了从2009年9月4日至2017年6月12日的31669条谣言，为研究者提供了一个详尽的谣言数据库。此外，CED_Dataset进一步扩展了数据集，包含了谣言和非谣言的微博原文及其转发和评论信息，为谣言的早期检测和可信度评估提供了丰富的数据支持。这一数据集的创建对于社交媒体谣言的识别、分析和防控具有重要的学术和实际意义，推动了相关领域的研究进展。

当前挑战

中文谣言数据集在构建过程中面临了多重挑战。首先，谣言的定义和识别本身就是一个复杂的问题，涉及语义分析、情感分析和信息验证等多个技术层面。其次，数据集的构建需要从海量的社交媒体数据中筛选和提取相关信息，这不仅要求高效的数据抓取技术，还需要处理数据的不完整性和噪声问题。此外，如何确保数据集的多样性和代表性，以及如何处理隐私和伦理问题，也是构建过程中需要克服的难题。在应用层面，如何利用该数据集进行有效的谣言检测和早期预警，以及如何提高模型的泛化能力和实时性，是当前研究面临的主要挑战。

常用场景

经典使用场景

中文谣言数据集在社交媒体谣言检测领域具有广泛的应用。该数据集通过提供丰富的谣言文本及其相关信息，如谣言内容、发布者信息、举报者信息等，为研究者提供了宝贵的资源。经典的使用场景包括谣言识别模型的训练与评估，通过分析谣言文本的特征，构建高效的分类器，从而实现对谣言的自动检测与预警。

解决学术问题

该数据集解决了社交媒体中谣言传播与检测的关键学术问题。通过提供大规模的谣言数据，研究者能够深入探讨谣言的传播机制、文本特征以及用户行为模式，进而提出有效的谣言检测算法。这不仅有助于提升谣言检测的准确性，还为社交媒体平台的谣言治理提供了理论依据和技术支持，具有重要的学术价值和实际意义。

衍生相关工作

基于中文谣言数据集，研究者们开展了多项经典工作。例如，刘知远等人提出了基于统计和语义分析的谣言检测方法，通过分析谣言文本的语义特征，提升了谣言识别的准确性。Song等人则进一步提出了可信的早期谣言检测模型，通过结合社交媒体的转发和评论信息，实现了谣言的早期预警。这些研究不仅丰富了谣言检测的理论体系，还为实际应用提供了有力的技术支撑。

以上内容由遇见数据集搜集并总结生成