MultiCaption
收藏arXiv2026-01-16 更新2026-01-20 收录
下载链接:
https://doi.org/10.5281/zenodo.18230659
下载链接
链接失效反馈官方服务:
资源简介:
MultiCaption是由圣地亚哥德孔波斯特拉大学等机构联合构建的多模态多语言矛盾检测数据集,包含64种语言的11,088对视觉声明(图像/视频配文)。该数据集通过专业事实核查员标注和大型语言模型验证,构建了声明间的矛盾关系标签。数据源自社交媒体真实谣言案例,采用人工校验、声明-帖子关联和自扩展三重标注策略,涵盖单语和跨语言场景。其核心价值在于为多语言环境下的虚假信息检测提供基准,尤其针对视觉内容被恶意重利用的典型谣言传播场景,推动跨模态矛盾识别技术的发展。
MultiCaption is a multimodal and multilingual contradiction detection dataset jointly constructed by the University of Santiago de Compostela and other institutions. It contains 11,088 pairs of visual claims (image/video with paired captions) across 64 languages. The dataset establishes contradiction relationship labels between claims through annotation by professional fact-checkers and validation via large language models. Its data originates from real social media rumor cases, and adopts a triple annotation strategy consisting of manual verification, claim-post association and self-expansion, covering both monolingual and cross-lingual scenarios. Its core value lies in providing a benchmark for disinformation detection in multilingual environments, especially targeting the typical rumor propagation scenario where visual content is maliciously repurposed, so as to promote the development of cross-modal contradiction recognition technology.
提供机构:
圣地亚哥德孔波斯特拉大学; 新视界媒体视听; 伦敦玛丽女王大学
创建时间:
2026-01-16
原始信息汇总
MultiCaption: Dataset for detecting disinformation using multilingual visual claims
基本信息
- 数据集名称: MultiCaption: Dataset for detecting disinformation using multilingual visual claims
- 发布日期: 2026年1月13日
- 版本: v1
- 访问状态: 数据集文件受限制访问(记录公开,但文件仅限有权限的用户访问)
- 资源类型: 数据集
- 发布者: Zenodo
- DOI: 10.5281/zenodo.18230659
- 许可证: Creative Commons Attribution 4.0 International
创建者
- Rafael Martins, Frade (Researcher)
- Panchendrarajan, Rrubaa (Researcher)
- Arkaitz Zubiaga (Supervisor)
所属机构
- Universidade de Santiago de Compostela
- Queen Mary University of London
- National University of Distance Education
数据集描述
MultiCaption 是一个多语言数据集,旨在通过矛盾的视觉声明来识别虚假信息。该数据集包含指向同一图像或视频的声明对,并通过多种策略进行标注,以确定它们是否相互矛盾。最终的数据集包含 64 种语言的 11,088 个视觉声明,为在真正的多模态和多语言环境中构建和评估虚假信息检测系统提供了独特的资源。
数据集构成
数据集包含训练集和测试集两个部分,具体构成如下:
| 集别 | 矛盾对数量 | 非矛盾对数量 | 总对数 | 语言数量 |
|---|---|---|---|---|
| 训练集 | 4020 | 4767 | 8795 | 59 |
| 测试集 | 2415 | 2505 | 4920 | 52 |
数据内容字段
- cid_1, cid_2: 原始数据集 MultiClaim v2 中的事实核查声明ID。
- claim_1, claim_2: 原始语言的声明。
- claim_1_en, claim_2_en: 声明的英文翻译。
- type_1, type_2: 声明类型,包括
claim(原始声明)、title(从相应事实核查文章标题中检索的声明)或synthetic_title/synthetic_claim(使用 GPT5 从title或claim生成的释义)。 - language_1, language_2: 声明的语言。
- label_name: 标签名称,指示
contradicting(矛盾)或non-contradicting(非矛盾)。 - label: 数值标签,1 表示
contradicting,0 表示non-contradicting。 - label_strategy: 用于标注的策略,包括
Manual、Self-Expansion、Claim-Pair-Link、LLM-Annotation、GP5-paraphrase。
相关资源
-
预印本: https://arxiv.org/abs/2601.11220
-
引用文献:
@misc{frade2026multicaption, title={MultiCaption: Detecting disinformation using multilingual visual claims}, author={Rafael Martins Frade and Rrubaa Panchendrarajan and Arkaitz Zubiaga}, year={2026}, eprint={2601.11220}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.11220}, }
访问条件
请求访问数据集文件需满足以下条件:
- 仅将数据集严格用于研究目的。访问请求必须来自相关大学、院系或其他科学或研究机构的官方且现有的电子邮件地址(用于验证)。
- 不得将数据集(或其任何部分)重新分享给未包含在此请求中的任何人。
- 在任何使用此数据集的出版物、项目或工具中,必须适当引用数据集描述中提到的论文。
- 理解数据集的创建方式,并且手动或自动预测的标注可能并非 100% 正确。
- 承认对数据集(数据)的使用以及因超出预期目的使用而可能产生的任何第三方权利(特别是版权)侵权负全部责任。
资助信息
- 资助方: European Commission
- 项目: HYBRIDS - Hybrid Intelligence to monitor, promote and analyse transformations in good democracy practices
- 项目编号: 101073351
统计信息(截至本版本)
- 总浏览量: 18
- 总下载量: 7
- 总数据量: 13.1 MB
索引与社区
- 索引于: OpenAIRE
- 所属社区: HYBRIDS HORIZON-MSCA-2021-DN
- 属于: EU Open Research Repository
搜集汇总
数据集介绍

构建方式
在多媒体与多语言平台虚假信息泛滥的背景下,MultiCaption数据集的构建旨在应对视觉主张矛盾检测的挑战。其构建过程以MultiClaim和MultiClaimNet作为核心数据源,这些源数据包含了专业事实核查员基于社交媒体内容撰写的多语言主张。通过融合人工验证、基于大型语言模型的自动标注以及利用原始数据中主张与帖子关联的多种标注策略,系统性地生成了矛盾与非矛盾视觉主张对。随后,应用严格的过滤流程提取高质量样本,并通过自扩展技术利用已标注对之间的关系自动生成新样本,最终构建了一个包含11,088对主张、覆盖64种语言的平衡数据集,确保了其在反映现实世界复杂性方面的代表性与严谨性。
特点
MultiCaption数据集的核心特点在于其前所未有的多语言覆盖与真实世界挑战的紧密映射。该数据集囊括了64种语言的视觉主张对,其中包含大量单语对与跨语言对,为开发无需依赖机器翻译的多语言事实核查流程提供了坚实基础。其主张源自真实的社交媒体内容与专业事实核查,主题涵盖全球性与地域性事件,如乌克兰战争、新冠疫情等,确保了数据语义的多样性与现实相关性。与现有基准如COSMOS相比,MultiCaption不仅规模显著更大,而且刻意避免了包含直接否定或明显事实核查语言的主张对,从而构建了一个更接近真实虚假信息传播场景、检测难度更高的评估基准。
使用方法
MultiCaption数据集主要用于训练与评估旨在检测视觉主张矛盾的自动化系统。研究者可将数据集划分为严格不相交的训练集与测试集,以防止数据泄露。在模型训练方面,支持单语(如使用英语翻译)与多语言(使用原始语言)两种配置,便于探索语言多样性对模型性能的影响。该数据集适用于微调各类Transformer架构、自然语言推理模型以及大型语言模型,以建立强大的基线性能。评估时,模型在MultiCaption测试集上的表现可用于衡量其处理多语言矛盾检测任务的能力;同时,也可在COSMOS等现有基准上进行跨数据集测试,以评估模型的泛化性。数据集中包含的时间戳与主题信息,进一步支持对虚假信息时空传播模式的分析研究。
背景与挑战
背景概述
随着在线虚假信息对社会构成的威胁日益加剧,特别是误导性内容在多媒体和多语言平台上的快速传播,自动化事实核查方法的发展受到现有数据集难以反映现实世界复杂性的制约。为填补这一空白,研究团队于2026年推出了MultiCaption数据集,该数据集由Rafael Martins Frade、Rrubaa Panchendrarajan和Arkaitz Zubiaga等研究人员共同创建,旨在通过检测视觉声明中的矛盾来识别虚假信息。数据集包含64种语言的11,088对视觉声明,其核心研究问题是构建一个真正多模态和多语言环境下的资源,以支持并评估虚假信息检测系统。MultiCaption的推出为相关领域提供了首个大规模多语言视觉声明矛盾检测基准,显著推动了跨语言事实核查管道的发展,减少了对机器翻译的依赖,提升了自动化系统的泛化能力和鲁棒性。
当前挑战
MultiCaption数据集致力于解决视觉虚假信息检测中的核心挑战,即识别针对同一图像或视频的声明之间是否存在矛盾,这一问题比传统的自然语言推理任务更为复杂,要求模型深入理解多语言语境下的语义对立。在构建过程中,研究团队面临多重挑战:首先,确保数据质量需采用多种标注策略,包括人工验证、基于大语言模型的标注以及利用声明-帖子链接,以准确区分矛盾与非矛盾对;其次,处理多语言数据的多样性和不平衡性,涉及64种语言的分布不均,需通过严谨的过滤和扩展策略来维护数据集的代表性和泛化性;此外,避免数据泄漏和关系重叠,要求构建严格分离的训练和测试分区,并通过自扩展技术增加样本规模,同时保持标注的一致性和可靠性。这些挑战共同塑造了数据集的复杂性和实用性。
常用场景
经典使用场景
在多媒体与多语言环境中,虚假信息的传播日益复杂,MultiCaption数据集为检测视觉声明中的矛盾提供了关键资源。该数据集最经典的使用场景在于训练和评估自动化事实核查系统,特别是在跨语言环境下识别图像或视频配文之间的不一致性。通过包含64种语言的11,088对视觉声明,研究人员能够构建模型来判断针对同一媒体的两个描述是否相互矛盾,从而模拟真实世界中的信息验证流程。
实际应用
在实际应用中,MultiCaption数据集可被整合到多语言事实核查平台中,帮助自动识别社交媒体上广泛传播的误导性视觉内容。例如,当同一张图片被配以不同语言、相互矛盾的描述时,系统能够快速检测出这些不一致,辅助人工核查员优先处理高风险信息。此外,该数据集支持分析虚假信息在时间和地理上的扩散模式,为公共机构制定反制策略提供数据支撑。
衍生相关工作
基于MultiCaption数据集,已衍生出一系列经典研究工作,主要集中在多语言矛盾检测模型的优化与评估。例如,研究者利用该数据集对基于Transformer的架构、自然语言推理模型以及大语言模型进行微调,建立了强大的多语言基准性能。这些工作不仅验证了任务特定微调的重要性,还展示了多语言训练在提升模型泛化能力方面的显著优势,为后续开发不依赖机器翻译的多语言事实核查管道奠定了基础。
以上内容由遇见数据集搜集并总结生成



