MultiClaimNet
收藏arXiv2025-03-28 更新2025-04-03 收录
下载链接:
https://zenodo.org/uploads/15100352
下载链接
链接失效反馈官方服务:
资源简介:
MultiClaimNet是一个包含三个多语言声明集群数据集的集合,由伦敦玛丽女王大学和Newtral Media Audiovisual等机构创建。该数据集包含了86种语言的话题广泛的声明,通过自动化的方式从声明匹配对中形成声明集群,并以有限的人工干预进行构建。最大的数据集包含85,300条经过验证的声明,这些声明以78种语言写成。该数据集的构建旨在解决声明聚类的问题,以提高声明检索和验证的效率,为自动化的事实核查管道提供可扩展的解决方案。
MultiClaimNet is a collection of three multilingual claim cluster datasets, developed by institutions including Queen Mary University of London, Newtral Media Audiovisual, and other relevant organizations. This dataset encompasses claims spanning a wide range of topics across 86 languages, and was constructed by generating claim clusters from claim pairs through automated methods with only limited human intervention. The largest of these datasets contains 85,300 verified claims written in 78 languages. This dataset was developed to address the challenge of claim clustering, improve the efficiency of claim retrieval and verification, and provide a scalable solution for automated fact-checking pipelines.
提供机构:
伦敦玛丽女王大学
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
在自动化事实核查领域,重复出现的多语言声明对冗余消除提出了迫切需求。MultiClaimNet数据集的构建采用了创新的自动化方法,通过整合现有声明匹配数据集和开发新型数据收集技术。具体而言,研究人员利用近似最近邻检索(ANN)从MultiClaim数据集中筛选候选声明对,并采用三种大型语言模型(LLMs)进行自动化相似性标注,最终形成包含85.3K条多语言事实核查声明的核心数据集。该方法显著减少了人工干预,同时通过语义向量空间分析和LLM标注确保了聚类质量。
特点
作为当前最大的多语言声明聚类数据集,MultiClaimNet涵盖86种语言的声明,其核心优势体现在三个方面:多语言覆盖性、时序关联性和主题多样性。数据集不仅包含平行语料中的声明变体,还记录了声明首次出现后的传播模式,50%的声明在1.6天内即出现重复。通过UMAP降维可视化可见,数据集能自然呈现从疫苗到环境问题等主题的语义连续性,为跨语言事实核查研究提供了丰富的语义关联模式。
使用方法
该数据集支持多层次的研究应用,主要使用场景可分为三类:基础算法评估、跨语言检索增强和动态聚类分析。研究人员可采用层次聚类或密度聚类等算法在降维后的语义空间进行实验,以声明的原始文本嵌入或翻译版本作为输入。对于事实核查系统集成,建议将新声明与整个聚类进行匹配而非单个声明,以提升多语言场景下的检索效率。数据集的时间戳信息特别适用于研究声明传播动力学,可通过分析重复声明的时间分布优化实时监测算法。
背景与挑战
背景概述
MultiClaimNet是由伦敦玛丽女王大学和西班牙Newtral Media Audiovisual的研究团队于2025年推出的多语言事实核查声明聚类数据集。该数据集旨在解决自动化事实核查领域中的声明冗余问题,特别是在跨平台、跨语言场景下重复声明的识别与聚类。数据集包含来自86种语言的85.3万条经过事实核查的声明,通过近似最近邻检索和大型语言模型自动标注技术构建,显著提升了声明聚类的效率和规模。MultiClaimNet的推出填补了该领域缺乏专用数据集的空白,为跨语言事实核查研究提供了重要基础。
当前挑战
MultiClaimNet面临的挑战主要包括两方面:在领域问题层面,跨语言声明聚类需要解决语义相似性判断的复杂性,尤其是不同语言间文化背景和表达方式的差异;声明演化追踪的时效性要求也对聚类算法提出了动态适应的挑战。在构建过程层面,自动标注技术面临噪声干扰,包括多实体引用混淆和隐含声明识别困难;数据偏差问题源于源数据集的主题覆盖局限性和高度相似声明对的过度代表。此外,维度约简技术与聚类算法的适配性、大规模数据处理的计算效率等问题也制约着数据集的优化应用。
常用场景
经典使用场景
MultiClaimNet数据集在自动化事实核查领域具有广泛的应用价值,尤其在多语言环境下处理重复声明的问题上表现突出。该数据集通过自动聚类技术,将讨论相同事实的声明进行分组,显著提高了事实核查的效率和可扩展性。其经典使用场景包括在多语言环境中识别和验证重复声明,从而减少冗余核查工作,提升自动化事实核查系统的整体性能。
衍生相关工作
MultiClaimNet数据集衍生了一系列经典研究工作,包括基于多语言句子嵌入的声明聚类算法、声明相似性评估模型以及自动化事实核查管道的优化方法。例如,研究者利用该数据集验证了多种聚类算法(如HDBSCAN和Agglomerative Clustering)在多语言环境下的性能,并提出了改进方案。这些工作不仅推动了声明聚类技术的发展,还为多语言事实核查系统的实际部署提供了重要参考。
数据集最近研究
最新研究方向
随着虚假信息在全球范围内的快速传播,多语言事实核查已成为数字时代的重要挑战。MultiClaimNet数据集的推出为这一领域注入了新的研究活力,其最新研究方向聚焦于多语言声明聚类的可扩展性解决方案。前沿探索主要集中在三个方面:首先,基于大型语言模型的自动化标注技术正在突破传统人工标注的瓶颈,研究者通过近似最近邻检索和LLM相似性评估构建了包含85.3K声明的超大规模数据集;其次,跨语言嵌入表示与层次聚类算法的融合创新成为热点,实验表明较小规模的句子嵌入模型在多语言环境下反而展现出优越性能;此外,时态声明分析揭示了虚假信息传播的关键特征,数据显示50%的虚假声明会在1.6天内重复出现,这为实时事实核查系统提供了重要设计依据。该数据集通过覆盖86种语言的声明聚类,不仅解决了该领域长期存在的数据短缺问题,更为构建全球化、多语言协同的事实核查基础设施奠定了关键技术基础。
相关研究论文
- 1MultiClaimNet: A Massively Multilingual Dataset of Fact-Checked Claim Clusters伦敦玛丽女王大学 · 2025年
以上内容由遇见数据集搜集并总结生成



