LTCR
收藏arXiv2023-06-13 更新2024-06-21 收录
下载链接:
https://github.com/Enderfga/DoubleCheck
下载链接
链接失效反馈官方服务:
资源简介:
LTCR数据集是由中山大学智能工程学院创建,专注于长文本中文谣言检测,特别是在COVID-19相关复杂假新闻的背景下。该数据集包含2290条新闻,其中1729条为真实新闻,561条为假新闻,平均长度分别为232.5和153.5字符。数据集通过整合多种来源的数据,包括已发表论文中的数据集和未授权发布的脚本及事实核查网站,确保了数据的高质量和多样性。LTCR数据集主要用于模型训练和评估,以提高对长文本假新闻的检测能力,特别是在社交媒体平台上。
The LTCR Dataset was developed by the School of Intelligent Engineering, Sun Yat-sen University, and focuses on long-text Chinese rumor detection, specifically in the context of COVID-19-related complex fake news. This dataset comprises 2,290 news articles, with 1,729 real news items and 561 fake news items, boasting average lengths of 232.5 and 153.5 Chinese characters respectively. To ensure high data quality and diversity, it integrates data from multiple sources, including datasets from published papers, unauthorized scripts, and fact-checking websites. The LTCR Dataset is primarily intended for model training and evaluation, aiming to enhance the detection performance of long-text fake news, especially on social media platforms.
提供机构:
中山大学智能工程学院
创建时间:
2023-06-13
搜集汇总
数据集介绍

构建方式
LTCR数据集的构建主要针对长文本谣言检测的需求。数据集的构建过程首先从现有的中文谣言数据集中收集了大量的新闻文章,包括正式和非正式来源。正式来源包括已发表的论文中提出的公开数据集,而非正式来源则包括未经授权发布的数据集以及提供谣言解释的事实核查网站。这些数据来源涵盖了2019年至2023年间的新闻文章。在收集过程中,研究人员利用Python编写了网络爬虫程序,从多个事实核查网站抓取了谣言数据。然后,研究人员对这些数据进行处理,提取了文章中的“说法”,即每篇文章的主要内容,包括被驳斥的谣言或虚假新闻。为了提高数据集的质量,研究人员还手动移除了与COVID-19相关的新闻文章中与谣言无关的内容,例如对谣言的描述而非原始谣言本身。此外,为了解决数据集中新闻文章标题不一致和内容相似的问题,研究人员选择了通用的标题和摘要字段,并使用TextRank4ZH工具为没有标题和摘要的文章生成了相应的文本摘要。最后,通过计算每对新闻文章之间的余弦相似度,移除了内容相似度高于0.8的文章,以减少数据集中的噪声,并确保模型的训练更加准确。LTCR数据集最终包含了2290篇新闻文章,其中1729篇为真实新闻,561篇为虚假新闻,所有文章的字数均超过80个字符,平均长度分别为232.5和153.5个字符。
特点
LTCR数据集的主要特点在于其专注于长文本谣言检测,填补了中文长文本谣言检测数据集的空白。数据集中包含的虚假新闻样本数量更多,且文本长度更长,为模型提供了一个更加真实和具有挑战性的评估场景。与现有的中文谣言数据集相比,LTCR数据集具有更大的规模和代表性,涵盖了多个中文新闻网站,包含了许多高质量的真实和虚假新闻文章。此外,LTCR数据集内容更加全面,涵盖了疫情的多个主题,这有助于提高模型的泛化性能,并为未来关于COVID-19谣言和虚假新闻检测的研究提供信息。最后,数据集中的新闻文章都已经在互联网上传播过,研究人员对这些文章进行了仔细筛选,确保了其逻辑性和迷惑性,使其适合用于中文长文本谣言检测的研究和应用。
使用方法
使用LTCR数据集的方法主要包括数据准备、模型训练和评估。首先,用户需要将数据集中的新闻文章进行预处理,包括分词、词性标注等操作,以便模型能够更好地理解文本内容。然后,用户可以使用多种文本分类模型,如TextCNN、TextRNN、Transformer等,对数据集进行训练,以学习文本特征并进行谣言检测。在模型训练过程中,用户可以根据需要调整模型的超参数,例如学习率、批处理大小、迭代次数等,以提高模型的性能。最后,用户可以使用准确率、召回率、精确率和F1分数等评估指标,对模型的性能进行评估,以选择最佳的谣言检测模型。此外,LTCR数据集还提供了基准模型和消融实验的结果,用户可以参考这些结果,进一步优化自己的模型。
背景与挑战
背景概述
在社交媒体时代,虚假信息的快速传播对公众行为和社会事件反应产生了负面影响。特别是长文本的虚假信息,由于其复杂性,更难被完全检测。为了更好地检测这些虚假新闻,特别是与COVID-19相关的复杂虚假新闻,Ma等人提出了名为LTCR的长文本中文谣言检测数据集。该数据集由1,729条真实新闻和500条虚假新闻组成,平均长度分别为230和152个字符。此外,作者还提出了DoubleCheck,一个基于显著性的虚假新闻检测模型,在LTCR数据集上取得了最高的准确率(95.85%)、虚假新闻召回率(90.91%)和F-score(90.60%)。
当前挑战
LTCR数据集及其相关模型面临的主要挑战包括:1)长文本虚假新闻的检测难度较大,需要更高质量的模型和更长的文本数据来提高检测能力;2)构建过程中需要解决数据冲突问题,例如不一致的数据标题和相似新闻内容的冲突;3)模型的设计需要更加注重召回率,因为遗漏虚假新闻的风险比遗漏真实新闻更大。
常用场景
经典使用场景
LTCR数据集在长文本中文谣言检测领域具有重要作用。该数据集为研究人员提供了宝贵的资源,以准确检测虚假信息,特别是在与COVID-19相关的复杂虚假新闻的背景下。LTCR数据集包括1,729篇真实新闻和500篇虚假新闻,平均长度分别为230和152个字符。此外,该数据集还提出了DoubleCheck模型,该模型在LTCR数据集上实现了最高的准确率(95.85%)、虚假新闻召回率(90.91%)和F-score(90.60%)。
实际应用
LTCR数据集在实际应用中具有广泛的前景。首先,该数据集可用于社交媒体平台上的谣言检测,帮助平台更准确地识别和过滤虚假新闻,从而保护用户免受误导。其次,LTCR数据集可用于开发更精确的虚假新闻检测模型,这些模型可以应用于各种场景,如医疗健康、社会事件等,以帮助人们做出更明智的决策。
衍生相关工作
LTCR数据集的提出引发了一系列相关研究。例如,一些研究者在LTCR数据集的基础上,提出了更先进的谣言检测模型,如基于深度学习的模型,这些模型在检测虚假新闻方面取得了更好的性能。此外,一些研究者还探索了LTCR数据集在跨语言谣言检测和跨领域谣言检测中的应用,进一步扩展了LTCR数据集的应用范围。
以上内容由遇见数据集搜集并总结生成



