WEAVE

github2025-11-17 更新2025-11-18 收录

下载链接：

https://github.com/weichow23/weave

下载链接

链接失效反馈

官方服务：

资源简介：

WEAVE是一个用于评测交错跨模态理解和生成能力的基准数据集，支持图像生成、视觉问答和统一多模态任务

WEAVE is a benchmark dataset for evaluating interleaved cross-modal understanding and generation capabilities, which supports image generation, visual question answering (VQA), and unified multimodal tasks

创建时间：

2025-11-09

原始信息汇总

WEAVE 数据集概述

数据集基本信息

数据集名称：WEAVE
全称：Unleashing and Benchmarking the Interleaved Cross-modality Comprehension and Generation
官方实现仓库：https://github.com/weichow23/weave
数据集地址：https://huggingface.co/datasets/WeiChow/Weave/
检查点地址：https://huggingface.co/WeiChow/Bagel-weave
项目主页：https://weichow23.github.io/weave/
论文地址：https://arxiv.org/abs/2511.11434

数据集描述

WEAVE是一个专注于交错跨模态理解和生成的基准测试数据集，旨在评估模型在跨模态任务中的表现。

数据集结构

代码仓库结构

eval/ # 评估脚本 ├── config.py # 配置设置 ├── main.py # 主要评估流程 ├── prompts.py # 评估提示词 ├── summarize.py # 结果汇总 ├── utils.py # 工具函数 └── vlm_tools.py # GPT实现

infer/ # 推理工具 ├── case_bagel.py # 组合任务示例 ├── case_gpt.py # VQA任务示例 ├── case_step1x.py # 图像生成示例 └── loader.py # 数据加载工具

vis.ipynb # 可视化笔记本

测试集格式

测试集文件格式为JSON： json { "domain": str, "images": [], "chats": [] }

评估指标

WEAVE基准测试评估4个核心指标：

指标	代码	描述	需要文本	需要图像
关键点正确性	KP	衡量编辑后的图像是否满足指定的编辑要求	❌ 否	✅ 是
视觉一致性	VC	确保非目标元素保持不变并与原始图像保持一致	❌ 否	✅ 是
图像质量	IQ	评估生成图像的整体质量	❌ 否	✅ 是
准确性	ACC	衡量理解任务中推理结果的正确性	✅ 是	❌ 否

使用说明

数据准备

bash mkdir <YOUR_DATA_PATH> cd <YOUR_DATA_PATH> huggingface-cli download WeiChow/WEAVE --include test/ --repo-type dataset --local-dir . cd test unzip test.zip

评估模式

img：图像评估模式
txt：文本评估模式
umm：统一评估模式

结果提交

可将结果提交至官方排行榜：https://weichow23.github.io/weave/

搜集汇总

数据集介绍

构建方式

在跨模态理解与生成领域，WEAVE数据集的构建采用了多轮对话与图像交织的架构设计。该数据集通过精心编排的对话流程，将视觉问答与图像生成任务无缝融合，每个样本包含图像序列和对应的多轮对话记录。构建过程中严格遵循模态对齐原则，确保文本描述与视觉内容在语义层面高度一致，为模型提供了丰富的跨模态交互上下文。

特点

WEAVE数据集最显著的特点在于其突破了传统单模态任务的局限，实现了视觉理解与生成的有机统一。该数据集涵盖多样化的领域场景，通过精心设计的评估指标体系，包括关键点正确性、视觉一致性、图像质量和准确度四个核心维度，全面衡量模型的跨模态能力。其独特的交织式结构使模型能够同时处理图像生成与语义理解任务，为推进多模态人工智能研究提供了重要基准。

使用方法

使用WEAVE数据集时，研究人员可通过Hugging Face平台便捷获取测试集，并按照提供的加载工具进行数据预处理。评估流程支持三种运行模式：单独测试图像生成、单独进行视觉问答任务，或执行联合推理任务。用户需配置相应的API密钥和端点信息，通过标准化脚本自动执行多维度评估，最终结果可提交至项目官方排行榜参与比较。

背景与挑战

背景概述

跨模态智能作为人工智能领域的前沿方向，致力于实现视觉与语言模态的深度融合与协同推理。WEAVE数据集由研究团队于2024年推出，聚焦于交织式跨模态理解与生成任务，旨在构建能够同时处理图像理解与文本生成的统一评估框架。该数据集通过设计多轮对话任务，推动模型在视觉问答、图像编辑和内容生成等场景中的综合能力演进，为多模态大模型的发展提供了标准化评测基准。

当前挑战

交织式跨模态任务面临双重挑战：在领域问题层面，模型需平衡视觉信息解析与语言生成的精确性，避免模态间信息传递失真；在构建过程中，数据标注需确保多轮对话的语义连贯性，同时维护生成图像与原始指令的视觉一致性。此外，评估体系需兼顾关键点正确性、视觉一致性与图像质量等多维度指标，这对自动化评测方法的鲁棒性提出了更高要求。

常用场景

经典使用场景

在跨模态人工智能研究领域，WEAVE数据集通过交织排列的视觉与文本数据，为多模态大模型提供了统一的评估框架。其典型应用场景涵盖视觉问答、图像生成及混合任务处理，研究者可借助该数据集系统验证模型在复杂跨模态语境下的综合表现。数据集设计的对话式交互结构，能够精准模拟真实场景中人类对图文信息的交替处理过程。

解决学术问题

该数据集有效解决了多模态学习中的核心难题——跨模态语义对齐与连贯生成。通过构建标准化的评估体系，学术界得以量化模型在理解-生成闭环任务中的性能瓶颈。其创新性评估指标如关键点正确性、视觉一致性等，为衡量模型跨模态推理能力提供了可靠依据，显著推进了通用人工智能在感知与生成统一方向的理论探索。

衍生相关工作

基于WEAVE基准已催生系列创新研究，如Bagel-weave等开源模型通过端到端训练实现了理解与生成的协同优化。多项工作借鉴其交织评估范式，发展了面向医疗影像报告生成、工业质检说明文档自动生成等垂直领域的专用系统。这些衍生成果持续拓展着多模态技术在实际场景中的深度与广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集