five

NegBench, CC12M-NegCap, CC12M-NegMCQ

收藏
github2025-01-16 更新2025-01-18 收录
下载链接:
https://github.com/m1k2zoo/negbench
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含用于评估视觉语言模型在否定特定任务上的综合基准(NegBench),以及用于微调模型的否定特定示例的脚本(如CC12M-NegCap, CC12M-NegMCQ)。

This repository contains a comprehensive benchmark (NegBench) for evaluating vision-language models on negation-specific tasks, as well as scripts with negation-specific examples for model fine-tuning (e.g., CC12M-NegCap, CC12M-NegMCQ).
创建时间:
2025-01-16
原始信息汇总

数据集概述

数据集名称

Vision-Language Models Do Not Understand Negation

数据集简介

该数据集是为论文《Vision-Language Models Do Not Understand Negation》而创建的,旨在探索视觉-语言模型(如CLIP、NegCLIP)在理解否定方面的局限性。数据集包含用于评估和微调视觉-语言模型的基准测试和合成数据集。

数据集结构

1. benchmarks/

  • 包含一个全面的基准测试(NegBench),用于评估视觉-语言模型在否定特定任务上的表现。

2. synthetic_datasets/

  • 包含用于构建评估和微调数据集的脚本,这些数据集包含否定特定的示例。
    • evaluation/: 用于创建评估否定理解能力的数据集(如NegBench)。
    • finetuning/: 用于创建微调模型在否定任务上的数据集(如CC12M-NegCap、CC12M-NegMCQ)。

数据集准备

有关下载和准备数据集(如CC12M、COCO、VOC2007、MSR-VTT)的详细说明,请参考datasets.md

引用

如果您在研究中使用了该数据集,请引用以下论文: bibtex @article{negbench2024, title={Vision-Language Models Do Not Understand Negation}, author={Author Name and Co-author Name}, journal={Preprint}, year={2024}, url={https://arxiv.org/abs/XXXX.XXXX} }

联系方式

如有问题或反馈,请联系:

搜集汇总
数据集介绍
main_image_url
构建方式
NegBench、CC12M-NegCap和CC12M-NegMCQ数据集的构建依托于对视觉-语言模型在否定理解上的局限性研究。通过脚本工具,研究人员从现有数据集(如CC12M、COCO、VOC2007、MSR-VTT)中提取并生成了包含否定语义的样本。NegBench作为评估基准,专门用于测试模型在否定任务上的表现,而CC12M-NegCap和CC12M-NegMCQ则用于模型微调,以提升其在否定语境下的理解能力。数据集的构建过程注重多样性和复杂性,确保涵盖多种否定形式和应用场景。
特点
该数据集的核心特点在于其专注于视觉-语言模型在否定语义理解上的挑战。NegBench提供了全面的评估框架,包含多种否定任务,能够系统性地测试模型的性能。CC12M-NegCap和CC12M-NegMCQ则通过合成数据的方式,生成了大量包含否定描述的图像-文本对,为模型微调提供了丰富的训练资源。这些数据集不仅覆盖了常见的否定形式,还引入了复杂的语义结构,旨在推动模型在更广泛语境下的理解能力。
使用方法
使用NegBench、CC12M-NegCap和CC12M-NegMCQ数据集时,研究人员可通过提供的脚本工具下载和预处理数据。NegBench主要用于评估视觉-语言模型在否定任务上的表现,用户可运行预定义的评估流程,获取模型在各项任务中的性能指标。CC12M-NegCap和CC12M-NegMCQ则用于模型微调,用户可根据需求调整训练参数,利用合成数据提升模型对否定语义的理解能力。详细的配置和使用说明可在各子目录的README文件中查阅。
背景与挑战
背景概述
NegBench、CC12M-NegCap和CC12M-NegMCQ数据集由麻省理工学院的研究人员Kumail Alhamoud和Shaden Alshammari于2024年创建,旨在探索视觉-语言模型在理解否定表达方面的局限性。这些数据集是论文《Vision-Language Models Do Not Understand Negation》的核心组成部分,研究揭示了现有模型(如CLIP、NegCLIP)在处理否定任务时的不足,并提出了新的评估基准和微调数据集以应对这些挑战。该研究为视觉-语言模型的理解能力提供了新的视角,推动了相关领域的发展。
当前挑战
NegBench等数据集的核心挑战在于解决视觉-语言模型对否定语义的理解问题。现有模型在处理否定任务时表现不佳,难以准确识别和生成包含否定信息的文本或图像描述。构建这些数据集时,研究人员面临的主要挑战包括如何设计具有代表性的否定任务、如何生成高质量的否定样本以覆盖多样化的场景,以及如何确保数据集的平衡性和泛化能力。此外,数据集的构建过程需要大量的计算资源和人工标注,进一步增加了其复杂性。
常用场景
经典使用场景
NegBench、CC12M-NegCap和CC12M-NegMCQ数据集主要用于评估和微调视觉-语言模型在否定理解任务中的表现。这些数据集通过构建包含否定性描述的图像-文本对,帮助研究者深入分析模型在处理否定语义时的能力。经典使用场景包括在视觉问答、图像描述生成等任务中,验证模型是否能够正确理解并处理否定性信息。
实际应用
在实际应用中,NegBench、CC12M-NegCap和CC12M-NegMCQ数据集可用于提升智能助手、图像检索系统和自动化内容生成工具的语义理解能力。例如,在智能助手中,模型需要准确理解用户输入的否定性指令,以避免错误响应。这些数据集为优化模型在实际场景中的表现提供了关键数据支持。
衍生相关工作
基于这些数据集,研究者们开展了多项经典工作,例如开发新的视觉-语言模型架构以增强否定理解能力,以及提出更高效的微调策略。此外,这些数据集还推动了否定语义理解领域的基准测试标准化,为后续研究提供了重要的参考和工具支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作