CoSTAR benchmark dataset

github2025-03-07 更新2025-03-09 收录

下载链接：

https://github.com/tianyi-lab/CoSTAR

下载链接

链接失效反馈

官方服务：

资源简介：

CoSTAR基准数据集，包含121张用于测试CoSTA*的图片，涵盖图像仅有的和文本+图像任务。

The CoSTAR benchmark dataset includes 121 images designed for testing CoSTA*, covering both image-only and text-image tasks.

创建时间：

2025-02-10

原始信息汇总

CoSTAR 数据集

数据集简介

CoSTAR是一个为解决多轮图像编辑任务而设计的成本敏感工具路径代理。该代理结合了大型语言模型(LLMs)和图搜索算法，在平衡成本和质量的同时动态选择AI工具。

数据集构成

提供121张图像的基准数据集，包含仅图像和文本+图像任务。

数据集获取

数据集可通过Huggingface获取：CoSTAR Dataset

数据集特点

分层规划：使用LLMs将任务分解为子任务树，用于构建最终的工具子图。
优化工具选择：在工具子图上应用A*搜索，进行成本效益高、质量优的路径查找。
多模态支持：在文本和图像模态之间切换以增强编辑效果。
质量评估：通过VLM自动评估工具输出，估计实际质量后再进行下一步。
自适应重试机制：如果输出不符合质量阈值，则使用更新后的超参数重试。
成本与质量平衡：A*搜索不仅最小化成本，也优化质量，允许用户调整α值来控制成本与质量的权衡。
支持24种AI工具：集成了YOLO、GroundingDINO、Stable Diffusion、CLIP、SAM、DALL-E等。

目录结构

CoSTAR/ ├── checkpoints/ │ ├── checkpoints.txt ├── configs/ │ ├── tools.yaml ├── inputs/ │ ├── 40.jpeg ├── outputs/ │ ├── final.png ├── prompts/ │ ├── 40.txt ├── requirements/ │ ├── craft.txt │ ├── deblurgan.txt │ ├── easyocr.txt │ ├── google_cloud.txt │ ├── groundingdino.txt │ ├── magicbrush.txt │ ├── realesrgan.txt │ ├── sam.txt │ ├── stability.txt │ ├── yolo.txt ├── results/ │ ├── final.png │ ├── img1.png │ ├── img2.png │ ├── img3.png │ ├── img4.png │ ├── img5.png ├── tools/ │ ├── dalleimage.py │ ├── groundingdino.py │ ├── sam.py │ ├── stabilityoutpaint.py │ ├── yolov7.py │ └── ... ├── .gitignore ├── LICENSE ├── README.md ├── Demo.ipynb ├── run.py ├── subtask_tree.py ├── tool_subgraph.py ├── astar_search.py

搜集汇总

数据集介绍

构建方式

CoSTAR benchmark dataset 旨在构建一个适用于多轮图像编辑任务的成本敏感工具路径代理。该数据集通过集成大型语言模型（LLMs）和图搜索算法，动态选择AI工具，同时平衡成本和质量。数据集包含121张图像，涵盖仅图像和文本+图像两种任务类型，以供测试CoSTA*模型之用。

使用方法

使用CoSTAR数据集前，需确保安装Python 3.8+版本及所有依赖项。执行前还需配置API密钥。数据集的使用包括生成子任务树、构建工具子图、运行A*搜索以找到最优工具路径，以及可视化整个过程。各项功能均有详细的使用说明，用户可根据具体需求进行调整。

背景与挑战

背景概述

CoSTAR benchmark dataset是一款专注于多轮图像编辑任务的成本敏感型工具路径代理，由Tianyi-lab团队开发。该数据集于2025年提出，旨在通过集成大型语言模型（LLMs）和图搜索算法，动态选择AI工具，同时平衡成本和质量。CoSTAR在图像编辑工作流程的复杂度上优于传统的文本到图像模型，如Stable Diffusion和DALLE-3。该数据集的影响力体现在其创新的分层规划策略和搜索基础上的工具选择过程，为图像编辑领域提供了新的研究方向和技术路径。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1)如何更有效地解决多轮图像编辑任务，保持高效率和高质量输出；2)在构建过程中，如何实现工具选择的优化，以及如何在成本与质量之间取得平衡。此外，数据集的构建还需克服多模态支持、质量评估和自适应重试机制等技术难题，以确保最终的编辑结果能够满足用户需求。

常用场景

经典使用场景

CoSTAR*基准数据集在多轮图像编辑任务中具有显著的应用价值。该数据集通过集成大型语言模型（LLMs）和图搜索算法，动态选择AI工具，并在成本和质量之间取得平衡。其经典使用场景在于，用户通过提供文本或图像输入以及编辑指令，系统则自动规划并执行一系列的子任务，以生成满足用户需求的图像输出。

解决学术问题

CoSTAR*数据集解决了传统文本到图像模型在处理复杂图像编辑工作流程时的局限性。通过LLM引导的分层规划策略和基于A*搜索的优化工具选择过程，该数据集为学术研究提供了在多模态任务中平衡成本与质量的有效途径，对于图像编辑领域的算法研究和性能评估具有重大意义。

实际应用

在实际应用中，CoSTAR*数据集可用于图像编辑软件的开发与优化，支持用户在成本和质量之间进行权衡，以满足不同的编辑需求。此外，其自适应重试机制和自动质量评估功能，为用户提供了一种可靠的方式来确保编辑结果符合预期标准。

数据集最近研究