Synthetic-NLI-VE

Name: Synthetic-NLI-VE
Creator: 莱顿大学
Published: 2025-08-16 01:13:41
License: 暂无描述

arXiv2025-08-16 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/robreijtenbach/Synthetic-NLI-VE

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一种新的合成数据集Synthetic-NLI-VE，用于训练视觉蕴含模型。现有的视觉蕴含数据集相对于文本蕴含数据集来说较小且稀疏。本文通过将SNLI数据集中的前提文本作为生成图像模型的输入提示，使用Stable Diffusion模型为每个文本前提创建一个图像，从而生成一个数据集。该数据集在内部和外部评估中均表现出良好的性能，证明了在数据稀缺的情况下，合成数据可以成为训练视觉蕴含模型的可行解决方案。

This paper introduces a novel synthetic dataset, Synthetic-NLI-VE, for training visual entailment models. Existing visual entailment datasets are smaller and sparser compared to textual entailment datasets. This work constructs the Synthetic-NLI-VE dataset by taking the premise texts from the SNLI dataset as input prompts for image generation models, and leveraging the Stable Diffusion model to generate an image for each textual premise. This dataset exhibits excellent performance in both internal and external evaluations, demonstrating that synthetic data can serve as a feasible solution for training visual entailment models in scenarios with scarce training data.

提供机构：

莱顿大学

创建时间：

2025-08-16

原始信息汇总

Synthetic-NLI-VE数据集概述

数据集来源

基于SNLI-VE数据集或其底层Flickr30k数据集的标题生成合成图像。

数据内容

每张原始SNLI-VE图像生成五张合成图像。
图像分辨率：512×512像素。

文件结构

生成图像存储在data/文件夹中。
文件名前缀为原始SNLI-VE图像ID以保持可追溯性。
数据文件夹分为多个部分（因单文件夹推送超过10000张图像存在问题）。

注意事项

dataset_dict.py和dataset_info.json文件为占位符，尚需实现（用于定义如何通过Hugging Face Datasets库加载和描述数据集）。

适用任务

视觉蕴含任务。
多模态推理任务。
作为真实世界图像-文本数据集的合成对应物。

搜集汇总

数据集介绍

构建方式

Synthetic-NLI-VE数据集的构建采用了创新的生成式人工智能技术，以文本蕴含数据集SNLI为前提文本输入，通过Stable Diffusion模型生成对应的视觉图像，从而替代原有的文本前提。这一方法显著降低了传统人工标注的高成本，同时确保了数据的大规模生成。构建过程中，每个文本前提均生成唯一的图像，形成了与原始SNLI-VE结构相似但内容全新的合成数据集。

特点

该数据集的核心特点在于其完全通过合成方式生成，涵盖了视觉蕴含任务所需的图像-文本对，并保留了原始SNLI数据集的标签体系（蕴含、中立、矛盾）。与人工标注数据集相比，Synthetic-NLI-VE在保持任务多样性的同时，展现出更高的扩展性和一致性。特别值得注意的是，基于CLIP特征的评估表明，合成图像与原始图像在语义空间具有接近的分布特性。

使用方法

Synthetic-NLI-VE主要用于视觉蕴含模型的训练与评估。研究人员可采用基于CLIP特征向量的分类架构，将图像和假设文本的特征向量通过特定融合策略（如拼接、加减和点积运算）结合，进而训练多层感知机进行三分类预测。实验表明，在该合成数据上训练的模型，其性能与原始数据训练的模型差距仅在2%左右，验证了合成数据在实际应用中的可行性。

背景与挑战

背景概述

Synthetic-NLI-VE数据集由莱顿大学的Rob Reijtenbach、Suzan Verberne和Gijs Wijnholds于2025年提出，旨在解决视觉蕴含（Visual Entailment, VE）任务中数据稀缺的问题。该数据集基于文本蕴含数据集SNLI，通过生成式AI模型Stable Diffusion将文本前提转换为图像，构建了一个大规模的合成视觉蕴含数据集。与传统的SNLI-VE和SICK-VTE数据集相比，Synthetic-NLI-VE显著降低了数据构建的成本和人力需求，同时保持了模型性能的竞争力。这一创新为视觉蕴含领域的研究提供了新的数据解决方案，推动了生成式AI在数据增强中的应用。

当前挑战

Synthetic-NLI-VE数据集面临的主要挑战包括两方面：首先，在领域问题层面，视觉蕴含任务本身具有较高的复杂性，要求模型能够准确理解图像与文本之间的逻辑关系，而合成数据的真实性和多样性可能影响模型的泛化能力；其次，在数据构建过程中，生成式AI模型的输出质量不稳定，可能导致图像与文本前提的语义不一致，此外，大规模合成数据的评估和验证也带来了计算资源和时间成本的挑战。尽管实验表明合成数据仅导致模型性能轻微下降，但如何进一步提升合成数据的真实性和多样性仍是未来研究的重点。

常用场景

经典使用场景

在视觉蕴含（Visual Entailment, VE）研究领域，Synthetic-NLI-VE数据集通过生成式AI技术构建了图像-文本对，为模型训练提供了大规模合成数据。其核心应用场景在于解决传统VE数据标注成本高昂的问题，通过将SNLI文本前提输入Stable Diffusion模型生成对应图像，形成与真实数据分布高度接近的合成数据集。该数据集特别适用于需要海量训练样本的跨模态推理任务，如基于CLIP架构的视觉蕴含分类器开发。

衍生相关工作

该工作直接启发了后续多语言视觉蕴含数据集SICK-VTE的构建方法。其技术路线被Yuan等人(2024)发展为合成数据评估框架，纳入保真度与效用性指标。Song等人(2022)提出的CLIP特征融合方法在该数据集上得到验证，形成经典baseline。此外，该数据集推动了生成式数据质量研究，如Hataya(2023)关于合成数据对模型性能影响的探讨便引用了本工作的实验结论。

数据集最近研究