CoSTAR benchmark dataset
收藏CoSTAR 数据集
数据集简介
CoSTAR是一个为解决多轮图像编辑任务而设计的成本敏感工具路径代理。该代理结合了大型语言模型(LLMs)和图搜索算法,在平衡成本和质量的同时动态选择AI工具。
数据集构成
- 提供121张图像的基准数据集,包含仅图像和文本+图像任务。
数据集获取
- 数据集可通过Huggingface获取:CoSTAR Dataset
数据集特点
- 分层规划:使用LLMs将任务分解为子任务树,用于构建最终的工具子图。
- 优化工具选择:在工具子图上应用A*搜索,进行成本效益高、质量优的路径查找。
- 多模态支持:在文本和图像模态之间切换以增强编辑效果。
- 质量评估:通过VLM自动评估工具输出,估计实际质量后再进行下一步。
- 自适应重试机制:如果输出不符合质量阈值,则使用更新后的超参数重试。
- 成本与质量平衡:A*搜索不仅最小化成本,也优化质量,允许用户调整α值来控制成本与质量的权衡。
- 支持24种AI工具:集成了YOLO、GroundingDINO、Stable Diffusion、CLIP、SAM、DALL-E等。
目录结构
CoSTAR/ ├── checkpoints/ │ ├── checkpoints.txt ├── configs/ │ ├── tools.yaml ├── inputs/ │ ├── 40.jpeg ├── outputs/ │ ├── final.png ├── prompts/ │ ├── 40.txt ├── requirements/ │ ├── craft.txt │ ├── deblurgan.txt │ ├── easyocr.txt │ ├── google_cloud.txt │ ├── groundingdino.txt │ ├── magicbrush.txt │ ├── realesrgan.txt │ ├── sam.txt │ ├── stability.txt │ ├── yolo.txt ├── results/ │ ├── final.png │ ├── img1.png │ ├── img2.png │ ├── img3.png │ ├── img4.png │ ├── img5.png ├── tools/ │ ├── dalleimage.py │ ├── groundingdino.py │ ├── sam.py │ ├── stabilityoutpaint.py │ ├── yolov7.py │ └── ... ├── .gitignore ├── LICENSE ├── README.md ├── Demo.ipynb ├── run.py ├── subtask_tree.py ├── tool_subgraph.py ├── astar_search.py




