Chinese_Rumor_Dataset

github2020-05-08 更新2024-05-31 收录

下载链接：

https://github.com/YaoLongrui/Chinese_Rumor_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。第一部分数据集（./rumors_v170613.json）包含31669条谣言，每条谣言以json格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果和举报时间。第二部分数据集（CED_Dataset）包含1538条谣言和1849条非谣言，数据集分为微博原文与其转发/评论内容，以json格式存储，包含微博原文的文字内容、发布用户信息、发布时间，以及转发/评论的用户ID、文字内容和发布时间。

This dataset comprises Chinese rumor data collected from the Sina Weibo misinformation reporting platform, divided into two parts. The first part of the dataset (./rumors_v170613.json) contains 31,669 rumors, each stored in JSON format, including the rumor's unique code, title, informant information, publisher information, rumor content, number of visits, review results, and reporting time. The second part of the dataset (CED_Dataset) includes 1,538 rumors and 1,849 non-rumors. This dataset is segmented into original Weibo posts and their reposts/comments, stored in JSON format, containing the text content of the original Weibo post, the posting user's information, the posting time, as well as the user ID, text content, and posting time of the reposts/comments.

创建时间：

2019-12-04

原始信息汇总

数据集概述

第一部分数据集

文件名: rumors_v170613.json
时间范围: 2009年9月4日至2017年6月12日
数据量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者微博名称
- rumormongerUr: 发布谣言者微博链接
- rumorText: 谣言内容
- visitTimes: 访问次数
- result: 审查结果
- publishTime: 举报时间

第二部分数据集

数据集名称: CED_Dataset
数据量: 谣言1538条，非谣言1849条
数据格式: JSON
数据结构:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

引用信息

第一部分数据集

论文: 刘知远, 张乐, 涂存超, 孙茂松. 《中文社交媒体谣言统计语义分析》. 《中国科学: 信息科学》, 2015.

第二部分数据集

论文: Song, Changhe, Tu, Cunchao, Yang, Cheng, Liu, Zhiyuan, Sun, Maosong. 《CED: Credible Early Detection of Social Media Rumors》. arXiv preprint arXiv:1811.04175, 2018.

搜集汇总

数据集介绍

构建方式

针对中文社交媒体环境中谣言的识别与处理需求，该数据集通过从新浪微博不实信息举报平台抓取相关数据，构建了包含谣言原微博及其转发/评论信息的综合数据集。其中，谣言原微博数据集涵盖2009年至2017年间31669条谣言，以JSON格式存储，每条记录包含谣言的唯一编码、标题、举报者信息、谣言发布者信息、谣言内容、访问次数、审查结果及举报时间等字段。第二部分数据集则包含谣言及其转发/评论信息，总计包含谣言与非谣言数据共计3387条，通过微博原文与对应的转发/评论内容进行组织。

特点

本数据集具备以下显著特点：一是数据来源权威，源自新浪微博不实信息举报平台，保证了数据的真实性和可靠性；二是数据内容全面，不仅包含谣言原微博信息，还包含与其相关的转发和评论信息，有助于研究谣言的传播路径和特点；三是数据格式规范，采用JSON格式存储，便于处理和分析。

使用方法

使用该数据集时，用户需首先理解数据集中的字段结构和含义，以便准确提取所需信息。针对谣言原微博数据集，用户可以直接读取JSON文件，提取包括谣言内容、发布者信息等关键字段进行谣言检测与分析。对于包含转发/评论信息的数据集，用户需结合微博原文和转发/评论内容，进行谣言传播的深入分析。同时，用户在使用数据集时应遵循相关法律法规，并在论文引用中遵循推荐的引文格式，以尊重数据集构建者的知识产权。

背景与挑战

背景概述

Chinese_Rumor_Dataset是一个收集自新浪微博不实信息举报平台的中文谣言数据集，其创建旨在为社交媒体谣言检测研究提供支持。该数据集由刘知远、张乐、涂存超和孙茂松等于2015年提出，并在学术界产生了广泛影响。数据集涵盖了从2009年至2017年的31669条谣言原微博信息，以及包含转发/评论信息的1538条谣言和1849条非谣言。该数据集的构建不仅有助于谣言的统计语义分析，也促进了社交媒体信息可信度的早期检测研究。

当前挑战

该数据集的构建与使用过程中面临的挑战主要包括：1) 如何从海量的社交媒体数据中准确识别并提取谣言信息；2) 谣言的多样性和复杂性给自动分类和检测带来了困难；3) 在保护用户隐私的前提下，如何有效利用转发和评论数据。构建过程中的挑战还包括数据清洗、标注一致性以及大规模数据处理等技术问题。

常用场景

经典使用场景

在自然语言处理与信息传播学交叉领域，Chinese_Rumor_Dataset数据集的经典使用场景在于为谣言检测模型提供训练与测试的基础。通过对谣言文本内容的深度学习，研究者可以构建出能够有效识别网络谣言的算法，从而维护网络信息的真实性与准确性。

解决学术问题

该数据集解决了学术研究中如何有效识别并处理社交媒体上谣言传播的问题。它不仅为谣言识别提供了丰富的样本资源，而且通过区分谣言与非谣言的传播模式，有助于深化对信息传播机制的理解，为构建健康网络环境提供了数据支持。

衍生相关工作

基于该数据集，衍生了一系列相关研究工作，如情感分析、信息传播模型构建等。这些研究进一步拓宽了谣言检测技术的应用范围，提升了网络信息处理的智能化水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集