CR-Dataset

github2023-06-02 更新2024-05-31 收录

下载链接：

https://github.com/cxyccc/CR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个粤语谣言数据集，用于论文《在线社交网络中使用判别特征集成识别粤语谣言》。数据集包含27,328条推文，其中包括13,883条谣言和13,445条非谣言。数据通过网络爬虫从Twitter收集，并完成了数据标注。

This is a Cantonese rumor dataset, utilized in the paper 'Identifying Cantonese Rumors in Online Social Networks Using Discriminative Feature Integration'. The dataset comprises 27,328 tweets, including 13,883 rumors and 13,445 non-rumors. The data was collected via web scraping from Twitter and has been annotated.

创建时间：

2022-03-30

原始信息汇总

CR-Dataset 概述

数据集描述

名称: CR-Dataset
目的: 用于论文《Identifying Cantonese Rumors with Discriminative Feature Integration in online Social Networks》
内容: 包含27,328条推文，其中13,883条为谣言，13,445条为非谣言。

数据收集

文件: CR-Dataset-example.csv
格式: text, label

示例:

Text	Label
今日警察已經光明正大喬裝示威者到處破壞而唔需要隱藏！光明正大拿槍對準市民 #929globalantitotalitarianism #hkpolicebrutality https://t.co/OURXJZyfag	1

收集时间:
- 2020年2月 - 2020年4月
- 2021年11月 - 2021年12月

数据标注

依据:
- 香港政府新闻
- 香港警察部队
- 《2019年香港暴徒十大谣言》（南方都市报）
原则: 严格依据上述三个来源的报告进行标注，不涉及个人政治立场。

使用范围

目的: 仅用于学术研究。

搜集汇总

数据集介绍

构建方式

CR-Dataset的构建过程始于通过开发的网络爬虫从Twitter平台收集粤语推文，随后进行数据标注以形成最终的数据集。数据收集工作分别在2020年2月至4月以及2021年11月至12月两个时间段内完成。数据标注严格依据香港政府新闻、香港警务处以及《南方都市报》发布的《2019年香港暴徒十大谣言》三个来源的报告进行，确保数据的客观性和准确性。

使用方法

CR-Dataset的使用方法相对直观，数据集以CSV文件格式提供，每条记录包含推文文本及其对应的标签。研究人员可以通过分析文本内容与标签之间的关系，开发或测试谣言检测算法。此外，该数据集还可用于研究粤语社交媒体中的信息传播模式，以及谣言在特定语言和文化背景下的传播特性。

背景与挑战

背景概述

CR-Dataset是一个专注于粤语谣言识别的数据集，由研究团队在2020年2月至4月以及2021年11月至12月期间通过Twitter爬虫收集粤语推文并完成数据标注构建而成。该数据集包含27,328条推文，其中13,883条为谣言，13,445条为非谣言。数据标注基于香港政府新闻、香港警务处以及《南方都市报》的《2019年香港暴徒十大谣言》等权威来源，确保了数据的客观性和准确性。该数据集的创建旨在支持在线社交网络中粤语谣言的识别研究，为相关领域的学术探索提供了重要的数据基础。

当前挑战

CR-Dataset的构建与应用面临多重挑战。首先，粤语作为一种方言，其语言表达复杂且多样，如何在自然语言处理中准确捕捉粤语特有的语言特征是一个技术难题。其次，谣言的界定与标注依赖于权威信息来源，但在实际应用中，信息来源的时效性和全面性可能影响数据的准确性。此外，社交网络数据的动态性和噪声问题也对数据清洗和预处理提出了更高要求。这些挑战不仅体现在数据构建过程中，也直接影响基于该数据集的模型训练与评估效果。

常用场景

经典使用场景

CR-Dataset主要用于粤语谣言检测的研究，特别是在社交媒体平台上识别和分类粤语推文中的谣言与非谣言内容。该数据集通过提供大量标注数据，支持机器学习模型在粤语环境下的训练与验证，为粤语自然语言处理领域提供了重要的数据资源。

解决学术问题

CR-Dataset解决了粤语谣言检测中数据稀缺的问题，为研究者提供了高质量、标注准确的粤语推文数据集。通过该数据集，研究者能够开发出更精确的谣言检测算法，提升社交媒体平台对粤语内容的监管能力，进而减少谣言传播对社会的影响。

实际应用

在实际应用中，CR-Dataset可被用于社交媒体平台的自动化谣言检测系统，帮助平台快速识别并处理粤语谣言内容。此外，该数据集还可用于政府或新闻机构的舆情监控系统，实时追踪和分析粤语社交媒体上的谣言传播趋势，为决策提供数据支持。

数据集最近研究