EUvsDisinfo
收藏arXiv2024-06-18 更新2024-06-20 收录
下载链接:
https://doi.org/10.5281/zenodo.10514307
下载链接
链接失效反馈官方服务:
资源简介:
EUvsDisinfo是由谢菲尔德大学创建的多语言数据集,专注于检测新闻文章中的亲克里姆林宫虚假信息。该数据集包含18,249篇文章,覆盖42种语言和508个主题,时间跨度为8.5年。数据集内容来源于专家撰写的反驳文章,旨在揭示不同语言中针对特定虚假信息主题的模式。创建过程中,利用了EUvsDisinfo项目的专家调查结果,确保数据的高质量和多样性。该数据集的应用领域主要集中在训练模型以区分多语言环境下的虚假信息和可信内容,特别是在政治和军事背景下,如乌克兰冲突期间的信息战。
EUvsDisinfo is a multilingual dataset developed by the University of Sheffield, dedicated to detecting pro-Kremlin disinformation in news articles. This dataset contains 18,249 articles, covering 42 languages and 508 topics, spanning a period of 8.5 years. The content of the dataset is sourced from expert-authored rebuttal articles, aiming to uncover patterns of specific disinformation topics across different languages. During its curation, expert survey results from the EUvsDisinfo project were utilized to ensure the high quality and diversity of the dataset. The main applications of this dataset focus on training models to distinguish between disinformation and credible content in multilingual environments, particularly in political and military contexts such as information warfare during the Ukraine conflict.
提供机构:
谢菲尔德大学
创建时间:
2024-06-18
搜集汇总
数据集介绍

构建方式
EUvsDisinfo数据集的构建基于EUvsDisinfo项目专家撰写的辟谣文章,涵盖了与亲克里姆林宫主题相关的可信与虚假新闻文章。数据收集过程通过提取EUvsDisinfo辟谣页面中引用的链接,获取虚假新闻文章,同时从辟谣文章的回应部分提取可信来源的链接。为确保数据的可靠性,研究人员对随机抽样的30篇辟谣文章进行了手动检查,标注了350个URL,确保其可信性。此外,使用Diffbot API提取网页内容,并通过Wayback Machine获取已失效网页的存档版本。最终,数据集经过严格的过滤策略,确保其主题一致性和数据质量。
使用方法
EUvsDisinfo数据集主要用于多语言环境下虚假新闻的二元分类任务,即区分虚假新闻与可信新闻。研究人员可以通过该数据集训练和评估多种机器学习模型,如支持向量机(SVM)、朴素贝叶斯(MNB)以及基于Transformer的模型(如mBERT和XLM-RoBERTa)。数据集的使用方法包括将数据划分为训练集、开发集和测试集,并通过交叉验证策略评估模型性能。此外,数据集还可用于分析虚假信息在不同语言和主题下的传播趋势,为虚假信息检测提供数据支持。
背景与挑战
背景概述
EUvsDisinfo数据集由谢菲尔德大学的研究团队于2018年创建,旨在提供多语言的、与亲克里姆林宣传相关的可信与虚假新闻文章。该数据集基于EUvsDisinfo项目的专家撰写的辟谣文章,涵盖了42种语言、508个主题,时间跨度长达8.5年,是迄今为止规模最大、主题最广泛、时间跨度最长的多语言虚假新闻检测数据集。该数据集的创建为研究亲克里姆林虚假信息在不同语言中的传播模式提供了重要资源,尤其是在2015年克里米亚事件后,虚假信息在欧洲的传播显著增加。通过分析该数据集,研究人员揭示了虚假信息在语言和主题上的针对性传播,特别是在2022年乌克兰全面入侵前夕,虚假信息内容显著增加。
当前挑战
EUvsDisinfo数据集在解决多语言虚假新闻检测问题时面临多重挑战。首先,虚假信息的传播具有语言和主题的多样性,不同语言中的虚假信息主题分布差异显著,这增加了模型在多语言环境下的泛化难度。其次,数据集的构建过程也面临技术挑战,例如从不同网站提取文本内容时,HTML结构的多样性使得数据清洗和标准化变得复杂。此外,部分文章因网页失效或付费墙限制而难以获取,需依赖Wayback Machine等工具进行恢复。最后,数据集的规模庞大且语言分布不均衡,某些语言的样本量较少,可能导致模型在这些语言上的表现不佳。
常用场景
经典使用场景
EUvsDisinfo数据集广泛应用于多语言环境下的虚假信息检测研究,尤其是在新闻文章的分类任务中。研究者利用该数据集训练和评估模型,以区分亲克里姆林虚假信息与可信内容。其多语言特性使得研究者能够分析不同语言中的虚假信息传播模式,揭示特定语言中的虚假信息主题分布及其随时间的变化趋势。
解决学术问题
EUvsDisinfo数据集解决了多语言虚假信息检测中的关键问题,尤其是在亲克里姆林虚假信息领域。通过提供大规模、多语言、多主题的新闻文章数据,该数据集填补了现有数据集在语言多样性、时间跨度和主题覆盖上的不足。研究者可以利用该数据集深入分析虚假信息的传播机制,揭示不同语言和文化背景下的虚假信息策略,进而开发出更有效的多语言虚假信息检测模型。
实际应用
在实际应用中,EUvsDisinfo数据集为新闻机构、社交媒体平台和政府机构提供了重要的工具,用于识别和应对虚假信息。通过训练基于该数据集的模型,这些机构能够更有效地检测和过滤虚假信息,尤其是在涉及亲克里姆林宣传的复杂多语言环境中。此外,该数据集还可用于政策制定者评估虚假信息对公众舆论的影响,从而制定更有针对性的应对策略。
数据集最近研究
最新研究方向
近年来,随着信息战和虚假信息传播的加剧,EUvsDisinfo数据集在多语言虚假信息检测领域的研究方向逐渐聚焦于跨语言、跨主题的虚假信息传播模式分析。该数据集不仅涵盖了42种语言,还提供了长达8.5年的时间跨度,使得研究者能够深入探讨不同语言环境下亲克里姆林虚假信息的传播策略。特别是在2022年乌克兰全面战争爆发前后,虚假信息内容的激增成为研究热点。通过该数据集,研究者能够揭示虚假信息在不同语言中的主题分布差异,并开发多语言环境下的虚假信息检测模型。此外,该数据集还为探索基于证据的事实核查方法提供了基础,通过将虚假信息与可信信息进行关联分析,进一步提升了虚假信息检测的准确性和可解释性。
相关研究论文
- 1EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles谢菲尔德大学 · 2024年
以上内容由遇见数据集搜集并总结生成



