中文谣言数据|社交媒体数据集|谣言分析数据集

github2024-05-23 更新2024-05-31 收录

社交媒体

谣言分析

下载链接：

https://github.com/thunlp/Chinese_Rumor_Dataset

下载链接

链接失效反馈

资源简介：

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。第一部分数据集包含31669条谣言，每条谣言以json格式存储，包含谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果和举报时间。第二部分数据集包含1538条谣言和1849条非谣言，数据集分为微博原文与其转发/评论内容，以json格式存储，包含微博原文的文字内容、发布用户信息和时间，以及转发/评论的用户ID、文字内容和发布时间。

This dataset comprises Chinese rumor data scraped from Sina Weibo's misinformation reporting platform, divided into two parts. The first part includes 31,669 rumors, each stored in JSON format, containing the rumor's unique code, title, reporter information, publisher information, rumor content, number of visits, review results, and reporting time. The second part consists of 1,538 rumors and 1,849 non-rumors, with the dataset segmented into original Weibo posts and their reposts/comments, stored in JSON format, including the text content of the original Weibo post, the posting user's information and time, as well as the user ID, text content, and posting time of the reposts/comments.

创建时间：

2018-11-09

原始信息汇总

数据集概述

第一部分数据集

名称: 中文谣言数据（./rumors_v170613.json）
时间范围: 2009年9月4日至2017年6月12日
记录数量: 31669条谣言
数据格式: JSON
字段释义:
- rumorCode: 谣言唯一编码
- title: 谣言标题
- informerName: 举报者微博名称
- informerUrl: 举报者微博链接
- rumormongerName: 发布谣言者的微博名称
- rumormongerUr: 发布谣言者的微博链接
- rumorText: 谣言内容
- visitTimes: 谣言被访问次数
- result: 谣言审查结果
- publishTime: 谣言被举报时间

第二部分数据集

名称: CED_Dataset
记录数量: 谣言1538条，非谣言1849条
数据结构: 分为微博原文与其转发/评论内容
数据格式: JSON
字段释义:
- 微博原文信息:
  - text: 微博原文内容
  - user: 发布用户信息
  - time: 发布时间（时间戳格式）
- 转发/评论信息:
  - uid: 用户ID
  - text: 转发/评论内容
  - data: 发布时间（格式如：2014-07-24 14:37:38）

AI搜集汇总

数据集介绍

构建方式

中文谣言数据集通过从新浪微博不实信息举报平台抓取构建，分为两个主要部分。第一部分（rumors_v170613.json）包含31669条谣言原微博，每条记录以json格式存储，涵盖了谣言的唯一编码、标题、举报者信息、发布者信息、谣言内容、访问次数、审查结果及发布时间等字段。第二部分（CED_Dataset）则进一步包含了与微博原文相关的转发与评论信息，区分了谣言与非谣言，并详细记录了微博原文及其转发/评论的文字内容、用户信息和发布时间。

使用方法

使用该数据集时，研究者可以首先根据需求选择合适的部分进行分析，如仅分析谣言原微博或结合转发与评论信息进行深入研究。数据集的json格式使得数据加载和处理变得简单，研究者可以使用Python的json库直接读取数据。此外，数据集提供了详细的字段释义，帮助研究者快速理解数据结构。在使用过程中，建议引用相关论文以确保学术诚信和数据来源的可靠性。

背景与挑战

背景概述

中文谣言数据集是由清华大学刘知远、张乐、涂存超和孙茂松等研究人员于2015年创建的，旨在通过分析中文社交媒体上的谣言内容，提供一个系统的谣言识别与分类工具。该数据集从新浪微博的不实信息举报平台抓取，涵盖了从2009年9月4日至2017年6月12日的31669条谣言，为研究者提供了丰富的数据资源。其核心研究问题是如何有效地识别和分类社交媒体中的谣言，这对于提升信息传播的真实性和可靠性具有重要意义。该数据集的发布，极大地推动了中文社交媒体谣言研究领域的发展，为后续的研究工作奠定了坚实的基础。

当前挑战

中文谣言数据集在构建过程中面临了多重挑战。首先，数据的真实性和准确性是首要问题，需要确保每条谣言的来源和内容都经过严格验证。其次，数据集的规模庞大，如何高效地处理和存储这些数据，以及如何从中提取有用的特征，都是技术上的挑战。此外，社交媒体上的谣言往往具有时效性和传播性，如何在数据集中反映这些动态特性，也是一个重要的研究方向。最后，如何构建一个有效的模型来识别和分类这些谣言，以应对不断变化的谣言形式和内容，是该数据集面临的主要挑战。

常用场景

经典使用场景

中文谣言数据集在社交媒体分析领域中具有广泛的应用。其经典使用场景之一是谣言检测与分类。通过分析谣言的文本内容、发布者信息以及举报者的反馈，研究者可以构建机器学习模型，以自动识别和分类社交媒体上的谣言。此外，该数据集还可用于谣言传播路径的研究，通过分析转发和评论信息，揭示谣言在社交网络中的扩散模式。

解决学术问题

中文谣言数据集解决了社交媒体中谣言识别与传播的关键学术问题。首先，它为谣言检测算法提供了丰富的训练数据，使得研究者能够开发出更为精准的谣言识别模型。其次，通过对谣言传播路径的分析，该数据集有助于理解谣言在社交网络中的扩散机制，从而为制定有效的谣言控制策略提供理论支持。此外，该数据集还促进了谣言与非谣言文本的语义分析，提升了自然语言处理技术在社交媒体分析中的应用水平。

实际应用

在实际应用中，中文谣言数据集被广泛用于社交媒体平台的谣言监控与管理。例如，微博等社交平台可以利用该数据集训练的模型，实时检测并标记潜在的谣言信息，从而减少不实信息的传播。此外，政府和公共机构也可以利用该数据集进行舆情分析，及时发现并应对可能引发社会不安的谣言。通过这些应用，该数据集在维护社交媒体环境的健康与稳定方面发挥了重要作用。

数据集最近研究

最新研究方向

近年来，中文谣言数据集在社交媒体信息真实性检测领域引起了广泛关注。研究者们致力于开发高效的谣言检测算法，以应对日益增长的虚假信息挑战。该数据集不仅为谣言检测模型的训练提供了丰富的语料，还促进了多模态数据融合的研究，如结合文本、图像和用户行为数据进行综合分析。此外，随着深度学习技术的进步，基于神经网络的谣言检测模型逐渐成为主流，这些模型能够捕捉到更复杂的语言模式和上下文信息，从而提高检测的准确性和鲁棒性。这些前沿研究不仅有助于提升社交媒体平台的信任度，还对公共舆论的正确引导具有重要意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录