ViClaim
收藏arXiv2025-04-17 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.12882v1
下载链接
链接失效反馈官方服务:
资源简介:
ViClaim是一个多语言、多主题的数据集,由苏黎世应用科技大学和西班牙UNED NLP & IR Group共同创建。该数据集包含1798个视频转录文本,涵盖三个语言(英语、德语、西班牙语)和六个主题,每个句子都被标注为值得事实核查、不值得事实核查或观点类别。数据集通过自定义标注工具进行标注,旨在推进视频通信中错误信息检测的多模态分析,解决多模态分析中的关键空白。
ViClaim is a multilingual, multi-topic dataset co-created by the Zurich University of Applied Sciences and the UNED NLP & IR Group. This dataset contains 1,798 video transcripts covering three languages (English, German, Spanish) and six topics, with each sentence annotated into three categories: fact-check-worthy, non-fact-check-worthy, and opinion. Annotated via a custom-built annotation tool, ViClaim aims to advance multimodal analysis for misinformation detection in video communications and address critical gaps in multimodal analysis.
提供机构:
苏黎世应用科技大学, Winterthur
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
ViClaim数据集的构建过程体现了严谨的科学方法论与跨学科协作精神。研究团队采用多阶段标注流程,首先通过人工筛选从YouTube平台获取1,798个短视频(时长不超过90秒),覆盖英语、德语和西班牙语三种语言及六个主题领域。为确保数据质量,团队开发了专用标注工具,由12名经过严格培训的标注员对视频转录文本进行四重独立标注,最终形成17,116个句子级标注样本。标注体系采用多标签分类方法,将每个句子标注为可核查事实、非核查事实、观点或无类别四种类型。通过Krippendorff's α和Cohen's κ系数进行标注一致性评估,并采用MACE算法对标注结果进行标准化处理,有效解决了自然语言理解任务中固有的主观性问题。
特点
ViClaim数据集的核心价值体现在其多维度的创新特性上。作为首个专注于视频转录文本的多语言多标签声明检测数据集,它突破了传统文本分析的限制,捕捉了口语表达中的独特语言特征。数据集涵盖政治选举、国际冲突等五个社会热点话题及一个娱乐话题,为领域迁移研究提供了理想条件。其标注体系创新性地融合了事实核查价值判断与观点识别,通过软标签技术保留了语义模糊场景下的多重解释可能性。数据分布分析显示,不同主题的声明类型呈现显著差异,如政治类视频中可核查事实占比更高,而娱乐内容则更多包含主观表述,这种内在差异性为模型鲁棒性测试提供了天然基准。
使用方法
该数据集支持多种前沿研究范式,用户可通过视频ID获取原始内容,或直接使用预处理后的转录文本与标注结果。建议研究流程包括:首先利用提供的软标签进行多标签分类模型训练,可采用交叉验证评估模型在已知主题的表现,再通过留出主题测试评估领域迁移能力。对于多模态扩展研究,可结合YouTube API获取视频的视觉与声学特征。团队提供的基线模型代码(包括XLM-Roberta和Falcon等架构的微调实现)可作为技术起点,其采用的QLoRA高效微调方法尤其适合计算资源有限的研究场景。需注意处理视频内容时应遵守平台服务条款,且推荐使用命名实体识别技术对转录文本进行隐私过滤。
背景与挑战
背景概述
ViClaim数据集由苏黎世应用科学大学和西班牙UNED NLP & IR研究组于2024年联合发布,旨在填补视频多语言多主题声明检测的研究空白。作为首个针对视频转录文本的细粒度标注资源,该数据集包含1,798个短视频转录本,覆盖英语、德语和西班牙语三种语言,涉及政治选举、乌克兰战争等六个主题领域。研究团队创新性地采用句子级多标签标注体系,区分可验证声明、非验证性事实和主观观点三类标签,并开发专用标注工具解决口语文本的复杂标注难题。该数据集的建立突破了传统基于书面文本的假新闻检测范式,为视频多模态虚假信息分析提供了关键基础设施,推动了计算事实核查技术向动态视听内容的延伸发展。
当前挑战
ViClaim面临的核心挑战体现在算法泛化与数据构建两个维度。在算法层面,尽管跨验证实验取得0.896的宏F1值,但领域迁移实验显示模型对游戏等非政治主题的识别性能显著下降(F1差值达0.2),揭示出现有方法对领域敏感特征的捕捉不足。数据构建过程中,研究团队需应对三重困难:口语文本的语法不规则性导致标注分歧(Krippendorff's α仅0.415-0.522)、多标签标注的语义重叠问题(如27%语句同时符合多个标签标准),以及视频内容动态性带来的标注复杂度(需同步处理视听信息与转录文本)。此外,手动筛选1798个声明密集视频的耗时过程(耗时7个月)和跨语言标注一致性控制(12名标注者需达成四重标注共识)进一步凸显了多媒体事实核查数据建设的艰巨性。
常用场景
经典使用场景
在多媒体信息检测领域,ViClaim数据集为研究者提供了一个多语言、多主题的视频转录文本标注资源。该数据集特别适用于开发自动检测视频中声明性内容的算法,尤其是在处理英语、德语和西班牙语的多语言环境时。通过标注每个句子是否包含值得验证的事实、不值得验证的事实或观点,ViClaim支持复杂的多标签分类任务,为自然语言处理模型提供了丰富的训练和测试场景。
衍生相关工作
ViClaim数据集已经激发了多项相关研究,尤其是在多语言声明检测和跨领域模型泛化方面。例如,基于ViClaim的研究探索了如何结合视频的视觉和音频特征来提升声明检测的准确性。此外,该数据集还被用于开发新的标注工具和协议,以支持更复杂的多模态信息检测任务。这些衍生工作进一步推动了视频内容分析领域的技术进步。
数据集最近研究
最新研究方向
随着视频内容在全球范围内的爆炸式增长,针对视频中虚假信息检测的研究正成为数字媒体领域的前沿课题。ViClaim数据集的推出填补了多语言视频文本语义分析的研究空白,其最新研究方向聚焦于三个关键维度:跨语言多标签分类模型的优化、领域自适应能力的提升,以及多模态融合技术的探索。当前研究热点包括利用量化低秩适配器(QLoRA)微调百亿参数级大语言模型,解决政治话题与娱乐领域间的知识迁移难题。该数据集通过17,116句精细标注的短视频文本,为开发可解释的AI检测系统提供了重要基准,其创新性的软标签处理方案更为处理语义模糊性树立了新范式。
相关研究论文
- 1ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos苏黎世应用科技大学, Winterthur · 2025年
以上内容由遇见数据集搜集并总结生成



