MMCV

github2024-12-09 更新2024-12-10 收录

下载链接：

https://github.com/mmcv-dataset/MMCV

下载链接

链接失效反馈

官方服务：

资源简介：

MMCV数据集包含多跳多模态声明验证的数据，每条记录包含一个多跳声明及其多模态证据，如文本、图像和表格证据。数据集用于验证多模态声明的准确性。

The MMCV Dataset contains data for multi-hop multimodal claim verification. Each record includes a multi-hop claim and its corresponding multimodal evidence, such as textual, image and tabular evidence. This dataset is designed to verify the accuracy of multimodal claims.

创建时间：

2024-11-14

原始信息汇总

MMCV 数据集

概述

MMCV 数据集用于多跳多模态声明验证，包含多跳声明及其多模态证据。

数据结构

文件格式: JSON
文件内容: 每行包含一个多跳声明及其相关证据。
字段:
- claim: 声明文本
- wiki_context: 维基百科上下文
- text_evidence: 文本证据
- image_evidence: 图像证据
- table_evidence: 表格证据
- label: 声明标签（如 SUPPORT）

数据来源

文本证据、图像证据、表格证据: 对应于 MMQA 中的 ID。

数据下载

步骤:
1. 运行 python download_raw.py 下载原始数据。
2. 运行 sh download_images.sh 下载图像文件。

环境要求

Python 版本: 3.9
依赖安装: 使用 environment.yml 文件创建 conda 环境。

运行指令

声明生成与细化: sh python data_collection_pipeline.py python assemble.py
否定管道: sh python negation_pipeline.py
MLLM 实验: sh python mllm_exp.py python evaluation.py

结果存储

实验结果: 存储在 MLLM_Results 文件夹中。

引用

text @inproceedings{wang2024piecing, title={Piecing It All Together: Verifying Multi-Hop Multimodal Claims}, author={Haoran Wang and Aman Rangapur and Xiongxiao Xu and Yueqing Liang and Haroon Gharwi and Carl Yang and Kai Shu.}, booktitle={Proceedings of the 31st International Conference on Computational Linguistics}, year={2025} }

许可证

许可证类型: CC BY-SA 4.0
许可证链接: CC BY-SA 4.0

搜集汇总

数据集介绍

构建方式

MMCV数据集的构建基于多跳多模态声明验证的需求，通过整合来自MMQA数据集的文本、图像和表格证据，形成了一个综合性的验证框架。每条数据记录包含一个多跳声明及其相关的多模态证据，如文本、图像和表格。数据集的构建过程包括从MMQA数据集中提取原始数据，并通过特定的脚本下载和整理这些数据，确保每条声明与其证据之间的关联性。

特点

MMCV数据集的显著特点在于其多模态性和多跳性。数据集不仅涵盖了文本信息，还包括图像和表格等多种形式的证据，这为验证复杂声明提供了丰富的数据支持。此外，数据集中的每条声明都经过精心设计，涉及多个跳跃的推理步骤，这使得数据集在处理复杂逻辑和多步骤验证任务时具有独特的优势。

使用方法

使用MMCV数据集时，首先需通过提供的脚本下载并整理原始数据，确保所有证据文件的完整性。随后，用户可以根据需要运行不同的实验脚本，如声明生成与细化、否定处理以及多模态语言模型实验等。每个实验的结果将存储在指定的文件夹中，便于后续分析和评估。此外，数据集的安装和运行均依赖于特定的Python环境和API密钥配置，确保实验环境的稳定性和一致性。

背景与挑战

背景概述

MMCV数据集，全称为Multi-Hop Multimodal Claim Verification，由Haoran Wang等研究人员于2024年11月13日首次发布。该数据集的核心研究问题在于验证多跳多模态声明，即通过结合文本、图像和表格等多种证据形式，对复杂声明进行验证。这一研究在自然语言处理和多模态学习领域具有重要意义，尤其是在信息验证和事实核查方面。MMCV数据集的发布不仅为相关研究提供了丰富的数据资源，还推动了多模态信息处理技术的发展，对学术界和工业界均产生了深远影响。

当前挑战

MMCV数据集在构建过程中面临多重挑战。首先，多跳声明的验证需要整合来自不同模态的证据，这要求高效的多模态数据处理和融合技术。其次，数据集的构建涉及大量原始数据的下载和处理，如从MMQA数据集中提取和匹配相关证据，这增加了数据集构建的复杂性和时间成本。此外，多模态声明的验证任务本身具有高度复杂性，需要开发新的算法和模型来有效处理和评估这些声明。这些挑战不仅考验了数据集构建的技术能力，也推动了相关领域研究的创新和发展。

常用场景

经典使用场景

MMCV数据集在多模态声明验证领域中具有经典应用场景。该数据集通过整合文本、图像和表格等多模态证据，支持对复杂的多跳声明进行验证。例如，研究者可以利用MMCV数据集中的多模态证据，对声明中的每一跳进行详细分析，从而验证声明的真实性。这种多模态验证方法不仅提高了声明验证的准确性，还为多模态信息融合提供了新的研究方向。

衍生相关工作

MMCV数据集的发布催生了多项相关经典工作。首先，基于MMCV数据集的研究推动了多模态机器学习模型的发展，特别是在多模态声明验证任务中，如何有效整合不同模态的证据成为一个重要研究方向。其次，MMCV数据集的发布促进了多模态信息融合技术的研究，特别是在复杂声明的验证过程中，如何利用多模态证据提高验证的准确性。此外，MMCV数据集还激发了多模态声明生成和验证工具的开发，为多模态信息处理提供了新的研究思路和方法。

数据集最近研究