WEAVE
收藏WEAVE 数据集概述
数据集基本信息
- 数据集名称:WEAVE
- 全称:Unleashing and Benchmarking the Interleaved Cross-modality Comprehension and Generation
- 官方实现仓库:https://github.com/weichow23/weave
- 数据集地址:https://huggingface.co/datasets/WeiChow/Weave/
- 检查点地址:https://huggingface.co/WeiChow/Bagel-weave
- 项目主页:https://weichow23.github.io/weave/
- 论文地址:https://arxiv.org/abs/2511.11434
数据集描述
WEAVE是一个专注于交错跨模态理解和生成的基准测试数据集,旨在评估模型在跨模态任务中的表现。
数据集结构
代码仓库结构
eval/ # 评估脚本 ├── config.py # 配置设置 ├── main.py # 主要评估流程 ├── prompts.py # 评估提示词 ├── summarize.py # 结果汇总 ├── utils.py # 工具函数 └── vlm_tools.py # GPT实现
infer/ # 推理工具 ├── case_bagel.py # 组合任务示例 ├── case_gpt.py # VQA任务示例 ├── case_step1x.py # 图像生成示例 └── loader.py # 数据加载工具
vis.ipynb # 可视化笔记本
测试集格式
测试集文件格式为JSON: json { "domain": str, "images": [], "chats": [] }
评估指标
WEAVE基准测试评估4个核心指标:
| 指标 | 代码 | 描述 | 需要文本 | 需要图像 |
|---|---|---|---|---|
| 关键点正确性 | KP | 衡量编辑后的图像是否满足指定的编辑要求 | ❌ 否 | ✅ 是 |
| 视觉一致性 | VC | 确保非目标元素保持不变并与原始图像保持一致 | ❌ 否 | ✅ 是 |
| 图像质量 | IQ | 评估生成图像的整体质量 | ❌ 否 | ✅ 是 |
| 准确性 | ACC | 衡量理解任务中推理结果的正确性 | ✅ 是 | ❌ 否 |
使用说明
数据准备
bash mkdir <YOUR_DATA_PATH> cd <YOUR_DATA_PATH> huggingface-cli download WeiChow/WEAVE --include test/ --repo-type dataset --local-dir . cd test unzip test.zip
评估模式
img:图像评估模式txt:文本评估模式umm:统一评估模式
结果提交
可将结果提交至官方排行榜:https://weichow23.github.io/weave/




