Multi-Check-Worthy (MultiCW)
收藏arXiv2026-02-18 更新2026-02-20 收录
下载链接:
https://zenodo.org/records/17482958
下载链接
链接失效反馈官方服务:
资源简介:
MultiCW是由Kempelen智能技术研究所构建的大规模多语言基准数据集,涵盖16种语言、7个主题领域和2种文本风格(正式与非正式),包含123,722条平衡标注的样本。数据整合了现有数据集、维基百科及翻译文本,通过严格的质量控制和平衡策略确保跨语言、跨领域的代表性。该数据集旨在推动自动化事实核查技术发展,特别针对多语言环境下可验证声明的检测任务,为微调模型与零样本大语言模型提供标准化评估基准。
提供机构:
Kempelen智能技术研究所; 西波美拉尼亚理工大学
创建时间:
2026-02-18
搜集汇总
数据集介绍
构建方式
在信息验证领域,多语言、多主题的核查价值声明检测面临数据资源匮乏的挑战。MultiCW数据集通过系统化的整合与平衡策略构建而成,其核心方法包括对多个现有数据集(如CLEF-2022/2023、MultiClaim、Ru22Fact)进行精选与融合,并依据写作风格(结构化与噪声文本)和类别(核查价值与非核查价值)进行严格分层。针对语言与类别分布不均的问题,研究团队采用降采样与数据增强相结合的策略,通过机器翻译为低资源语言补充样本,并利用维基百科提取通用知识语句作为非核查价值实例,最终形成一个涵盖16种语言、7个主题领域、包含123,722个样本的均衡基准数据集。
特点
该数据集的核心特征体现在其设计的全面性与平衡性上。MultiCW首次在核查价值检测任务中实现了语言、写作风格和类别的三维均衡,覆盖了从正式新闻到社交媒体帖子等多种文本形态。其包含的16种语言不仅涵盖高资源语种,也纳入了多种低资源语言,并额外提供了一个包含4种新语言的分布外评估集,专门用于检验模型的泛化能力。数据样本在健康、政治、环境等七个主题上具有广泛代表性,同时通过精细的标注与来源追踪,确保了数据质量的透明性与可复现性,为构建稳健的多语言检测模型提供了坚实基础。
使用方法
作为一项基准资源,MultiCW数据集主要用于训练和评估自动化核查价值声明检测模型。研究者可按照其提供的标准划分(训练、验证、测试集)进行模型训练,并利用分布外评估集系统检验模型在未见语言与主题上的泛化性能。该数据集支持对微调Transformer模型(如XLM-R、mDeBERTa)与零样本大型语言模型进行公平比较,其平衡的设计使得评估结果能够清晰反映模型在不同文本风格和语言上的真实能力。此外,数据集配套的代码与处理流程为复现实验与进一步开发提供了完整的技术支持。
背景与挑战
背景概述
在信息验证与事实核查领域,自动化识别值得核查的声明是提升媒体工作效率的关键环节。由斯洛伐克Kempelen智能技术研究所等机构的研究团队于2026年创建的Multi-Check-Worthy数据集,旨在应对现有数据资源在语言、主题和文本风格上的局限性。该数据集覆盖16种语言、7个主题领域和两种写作风格,包含超过12万条平衡样本,为核心研究问题——构建鲁棒的多语言可核查声明检测模型——提供了大规模基准。其均衡的设计显著推动了自动化事实核查系统的跨语言泛化能力评估,为比较微调模型与大型语言模型的性能奠定了坚实基础。
当前挑战
MultiCW数据集致力于解决可核查声明检测任务中的核心挑战,即模型在多样化语言、领域及非正式文本风格下的泛化能力。具体挑战体现在两方面:其一,所解决的领域问题要求模型精准区分具有公共意义、可验证且可能产生影响的声明与主观或琐碎的陈述,这对语义理解和上下文推理提出了极高要求;其二,在构建过程中,研究团队面临原始数据高度不平衡、低资源语言样本匮乏以及非正式文本机器翻译质量保障等难题,需通过精心设计的平衡策略与质量管控流程来确保数据集的代表性与可靠性。
常用场景
经典使用场景
在自动化事实核查与信息可信度评估领域,Multi-Check-Worthy数据集为训练和评估可核查声明检测模型提供了标准化的多语言基准。该数据集最经典的使用场景是作为监督学习框架下的训练与测试资源,支持研究人员开发能够从混杂的文本流中自动识别出值得进一步核查的声明的分类模型。通过涵盖16种语言、7个主题领域以及正式与非正式两种文本风格,它使得模型能够在多样化的语言和文化语境下进行稳健的性能验证,尤其适用于对比微调后的多语言Transformer模型与零样本大语言模型在声明检测任务上的效能差异。
解决学术问题
Multi-Check-Worthy数据集主要解决了自动化事实核查流程中可核查声明检测这一关键环节所面临的若干核心学术问题。它通过提供大规模、平衡的多语言标注数据,直接应对了以往研究受限于单一语言(如英语)、狭窄领域(如COVID-19)或特定文本风格(如新闻标题)的挑战。该数据集使得系统化的跨语言、跨领域、跨风格的模型泛化能力评估成为可能,为研究多语言自然语言处理模型在真实世界嘈杂文本(如社交媒体帖子)与结构化文本(如新闻文章)上的鲁棒性提供了实证基础。其意义在于推动了可核查声明检测从特定场景的解决方案向通用、稳健的多语言系统的演进。
衍生相关工作
Multi-Check-Worthy数据集的构建理念与丰富内容催生并衔接了多项相关经典研究工作。其直接继承了CLEF CheckThat!系列评测任务、MultiClaim多语言声明检索数据集以及Ru22Fact冲突事实核查数据集的核心数据与标注范式,并进行了系统性的平衡与扩展。在模型研究方面,该数据集为评估如XLM-R、mDeBERTa等微调多语言Transformer模型,以及对比Claude、GPT、Llama等系列大语言模型的零样本性能提供了统一舞台。相关衍生工作深入探索了链式思维提示工程对提升大模型在声明检测任务上表现的作用,并系统分析了模型在不同语言资源水平及文本风格下的性能差异,为后续研究混合系统与高级多语言对齐策略奠定了基础。
以上内容由遇见数据集搜集并总结生成



