CABENCH

Name: CABENCH
Creator: 越南国家大学，河内科技大学，信息技术学院
Published: 2025-08-04 21:48:32
License: 暂无描述

arXiv2025-08-04 更新2025-08-06 收录

下载链接：

https://github.com/iSE-UET-VNU/CABench

下载链接

链接失效反馈

官方服务：

资源简介：

CABENCH是一个包含70个现实世界可组合AI任务的公共基准，以及一个精选的约700个现成的、经过良好训练的模型池。该数据集跨越多个主题和模式，确保多样性和实际相关性。此外，我们还提出了一种端到端评估框架，以实现对可组合AI方法的系统评估。

CABENCH is a public benchmark comprising 70 real-world composable AI tasks, alongside a curated pool of approximately 700 pre-trained off-the-shelf models. This benchmark covers multiple topics and modalities, ensuring diversity and practical relevance. Furthermore, we propose an end-to-end evaluation framework to enable systematic assessment of composable AI approaches.

提供机构：

越南国家大学，河内科技大学，信息技术学院

创建时间：

2025-08-04

原始信息汇总

CABench数据集概述

数据集基本信息

数据集名称：CA-bench
数据集内容：包含70个CA（Cellular Automata，细胞自动机）问题
用途：用于评估AI系统的机器学习工程能力

数据集安装

安装CA问题数据集： console cabench download -d datasets
安装基准和人工设计结果： console cabench download -d results

数据集使用

生成工作流

命令： console cabench generate -p <task_directory> -s <save_directory> -pl <pipeline_path> -n <rounds>
示例： console cabench generate -p tasks/node-level -s results/my_experiment -pl pipeline/zeroshot_pipeline.py -n 3

运行生成的工作流

命令： console cabench run -p <task_directory> -s <save_directory> -n <rounds>
示例： console cabench run -p tasks/node-level -s results/my_experiment -n 3

计算解决方案分数

命令： console cabench calculate -p <task_directory> -s <save_directory> -n <rounds>
示例： console cabench calculate -p tasks/node-level -s results/my_experiment -n 3

运行完整流程

命令： console cabench generate -p <task_directory> -s <save_directory> -pl <pipeline_path> -n <rounds> --run-after --calculate-after
示例： console cabench generate -p tasks/node-level -s results/my_experiment -pl pipeline/zeroshot_pipeline.py -n 3 --run-after --calculate-after

主要参数

-p, --path：任务目录路径（支持多个任务）
-s, --save-dir：保存结果的目录（必须是results/的子文件夹）
-pl, --pipeline_path：生成解决方案的流水线路径
-n, --rounds：运行轮数（默认：1）
--run-after：生成后立即运行工作流
--calculate-after：运行后计算分数（需要--run-after）

其他功能

列出可用数据集： console cabench download --list

搜集汇总

数据集介绍

构建方式

CABENCH数据集的构建遵循了严谨的科学原则，以确保其在可组合人工智能领域的实用性和相关性。该数据集包含70个现实任务，这些任务均源自Hugging Face和Kaggle平台上广受欢迎的数据集，每个任务的下载量均超过10,000次，确保了其实际应用的广泛性。通过GPT-4o生成用户故事或应用场景，并结合人工审核与验证，确保了任务的清晰性、可行性和现实背景的契合。此外，数据集还配备了一个精选的模型池，包含约700个预训练模型，覆盖多种模态和任务类型，模型参数限制在500M以内，以适应实际部署的硬件限制。

使用方法

使用CABENCH数据集时，研究者可以通过其提供的评估框架对可组合人工智能方法进行端到端评估。该框架支持输入任务描述和解决方案（无论是人工设计还是自动生成），并执行推理以生成预测输出。预测结果与真实输出通过任务适用的标准指标（如准确率、F1分数、R²分数、BLEU和ROUGE-L等）进行比较，所有指标分数均线性归一化至[0,1]范围，便于跨任务和方法的性能对比。数据集还支持两种基于大型语言模型的策略（Prompt-to-Solve和Prompt-to-Pipeline）作为基线，为未来研究提供了起点和比较基准。

背景与挑战

背景概述

CABENCH是由越南国立大学河内工程与技术学院信息科技学院的研究团队于2025年推出的首个面向可组合人工智能（Composable AI, CA）的公开基准测试。该数据集旨在解决复杂AI任务分解与预训练模型组合的系统化评估问题，包含70个现实场景任务和跨模态的700个精选模型池。作为可组合AI领域的开创性基准，CABENCH通过建立端到端评估框架，填补了传统基准在模型可执行管道验证方面的空白，为AI系统资源复用提供了标准化研究基础。其任务设计源自Hugging Face和Kaggle高下载量数据集，确保了实用性和多样性，显著推动了模块化AI解决方案的发展。

当前挑战

CABENCH面临的核心挑战体现在两个维度：在领域问题层面，需解决复杂任务自动分解与模型适配的耦合难题，要求子任务划分既符合原始目标又匹配现有模型能力；在构建过程中，需克服多模态模型接口异构性（如语音识别与OCR模型的格式转换）、误差跨阶段传播控制，以及有限上下文下大语言模型的管道生成准确性等工程挑战。实验数据表明，基于LLM的Prompt-to-Pipeline方法平均准确率仅为0.23，较人工设计方案的0.80存在显著差距，突显了自动生成可执行管道的技术瓶颈。

常用场景

经典使用场景

CABENCH作为一个专注于可组合人工智能（Composable AI）的基准测试数据集，其经典使用场景在于评估和比较不同方法在复杂任务分解与模型组合上的性能。研究人员可以利用该数据集中的70个现实任务和700个预训练模型，测试其算法在任务分解、模型选择及管道构建方面的有效性。例如，在医疗诊断系统中，通过将任务分解为图像分析、临床笔记理解和风险评估等子任务，并组合相应的预训练模型，验证系统的整体性能。

解决学术问题

CABENCH解决了可组合人工智能领域中的多个关键学术问题，包括复杂任务的自动化分解、预训练模型的有效选择与组合以及异构模型的互操作性。通过提供标准化的任务和模型池，该数据集为研究者提供了一个统一的评估平台，从而能够系统地比较不同方法的优劣。此外，CABENCH还揭示了当前大型语言模型（LLM）在自动生成可执行管道方面的局限性，为未来研究指明了改进方向。

实际应用

在实际应用中，CABENCH可用于开发和优化多模态AI系统，例如智能客服、自动驾驶和医疗诊断系统。这些系统通常需要整合来自不同领域的多个模型，以完成复杂的端到端任务。通过使用CABENCH，开发者可以测试不同模型组合的性能，并优化管道中的数据处理和错误传播问题，从而提升系统的整体效率和可靠性。

数据集最近研究