CR-Dataset
收藏github2023-06-02 更新2024-05-31 收录
下载链接:
https://github.com/cxyccc/CR-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个粤语谣言数据集,用于论文《在线社交网络中使用判别特征集成识别粤语谣言》。数据集包含27,328条推文,其中包括13,883条谣言和13,445条非谣言。数据通过网络爬虫从Twitter收集,并完成了数据标注。
This is a Cantonese rumor dataset, utilized in the paper 'Identifying Cantonese Rumors in Online Social Networks Using Discriminative Feature Integration'. The dataset comprises 27,328 tweets, including 13,883 rumors and 13,445 non-rumors. The data was collected via web scraping from Twitter and has been annotated.
创建时间:
2022-03-30
原始信息汇总
CR-Dataset 概述
数据集描述
- 名称: CR-Dataset
- 目的: 用于论文《Identifying Cantonese Rumors with Discriminative Feature Integration in online Social Networks》
- 内容: 包含27,328条推文,其中13,883条为谣言,13,445条为非谣言。
数据收集
- 文件: CR-Dataset-example.csv
- 格式: text, label
- 示例:
Text Label 今日警察已經光明正大喬裝示威者到處破壞而唔需要隱藏!光明正大拿槍對準市民 #929globalantitotalitarianism #hkpolicebrutality https://t.co/OURXJZyfag 1 - 收集时间:
- 2020年2月 - 2020年4月
- 2021年11月 - 2021年12月
数据标注
- 依据:
- 香港政府新闻
- 香港警察部队
- 《2019年香港暴徒十大谣言》(南方都市报)
- 原则: 严格依据上述三个来源的报告进行标注,不涉及个人政治立场。
使用范围
- 目的: 仅用于学术研究。
搜集汇总
数据集介绍

构建方式
CR-Dataset的构建过程始于通过开发的网络爬虫从Twitter平台收集粤语推文,随后进行数据标注以形成最终的数据集。数据收集工作分别在2020年2月至4月以及2021年11月至12月两个时间段内完成。数据标注严格依据香港政府新闻、香港警务处以及《南方都市报》发布的《2019年香港暴徒十大谣言》三个来源的报告进行,确保数据的客观性和准确性。
使用方法
CR-Dataset的使用方法相对直观,数据集以CSV文件格式提供,每条记录包含推文文本及其对应的标签。研究人员可以通过分析文本内容与标签之间的关系,开发或测试谣言检测算法。此外,该数据集还可用于研究粤语社交媒体中的信息传播模式,以及谣言在特定语言和文化背景下的传播特性。
背景与挑战
背景概述
CR-Dataset是一个专注于粤语谣言识别的数据集,由研究团队在2020年2月至4月以及2021年11月至12月期间通过Twitter爬虫收集粤语推文并完成数据标注构建而成。该数据集包含27,328条推文,其中13,883条为谣言,13,445条为非谣言。数据标注基于香港政府新闻、香港警务处以及《南方都市报》的《2019年香港暴徒十大谣言》等权威来源,确保了数据的客观性和准确性。该数据集的创建旨在支持在线社交网络中粤语谣言的识别研究,为相关领域的学术探索提供了重要的数据基础。
当前挑战
CR-Dataset的构建与应用面临多重挑战。首先,粤语作为一种方言,其语言表达复杂且多样,如何在自然语言处理中准确捕捉粤语特有的语言特征是一个技术难题。其次,谣言的界定与标注依赖于权威信息来源,但在实际应用中,信息来源的时效性和全面性可能影响数据的准确性。此外,社交网络数据的动态性和噪声问题也对数据清洗和预处理提出了更高要求。这些挑战不仅体现在数据构建过程中,也直接影响基于该数据集的模型训练与评估效果。
常用场景
经典使用场景
CR-Dataset主要用于粤语谣言检测的研究,特别是在社交媒体平台上识别和分类粤语推文中的谣言与非谣言内容。该数据集通过提供大量标注数据,支持机器学习模型在粤语环境下的训练与验证,为粤语自然语言处理领域提供了重要的数据资源。
解决学术问题
CR-Dataset解决了粤语谣言检测中数据稀缺的问题,为研究者提供了高质量、标注准确的粤语推文数据集。通过该数据集,研究者能够开发出更精确的谣言检测算法,提升社交媒体平台对粤语内容的监管能力,进而减少谣言传播对社会的影响。
实际应用
在实际应用中,CR-Dataset可被用于社交媒体平台的自动化谣言检测系统,帮助平台快速识别并处理粤语谣言内容。此外,该数据集还可用于政府或新闻机构的舆情监控系统,实时追踪和分析粤语社交媒体上的谣言传播趋势,为决策提供数据支持。
数据集最近研究
最新研究方向
在社交媒体分析领域,粤语谣言检测正逐渐成为研究热点。CR-Dataset作为首个专注于粤语推文的谣言数据集,为研究者提供了丰富的语料资源。该数据集不仅涵盖了大量的谣言和非谣言样本,还通过严格的标注流程确保了数据的可靠性。近年来,基于深度学习的多模态融合方法在谣言检测中展现出显著优势,结合文本、图像等多源信息进行综合判断成为主流趋势。CR-Dataset的推出为这一方向的研究提供了重要支撑,特别是在粤语这一特定语言环境下的谣言传播规律和特征分析方面具有独特价值。随着社交媒体平台的快速发展,如何有效识别和遏制谣言传播已成为维护网络空间清朗的重要课题,CR-Dataset的构建和应用将为相关研究提供有力支持。
以上内容由遇见数据集搜集并总结生成



