CAIA Benchmark

github2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/caiba-ai/caia-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CAIA Benchmark旨在创建一个特定领域、行业级的评估标准，超越通用的学术数据集，反映加密货币领域的实际情况。它包括四个主要任务套件：链上分析、代币经济学深度分析、项目发现和重叠任务。每个任务都以JSON格式提供，包含任务ID、问题、级别和评估标准。

The CAIA Benchmark is designed to establish a specific domain and industry-level evaluation criterion that surpasses general academic datasets and reflects the actual circumstances in the cryptocurrency field. It includes four main task suites: on-chain analysis, in-depth token economics analysis, project discovery, and overlapping tasks. Each task is provided in JSON format, containing task ID, question, level, and evaluation criteria.

创建时间：

2025-05-20

原始信息汇总

CAIA - 加密货币AI智能体基准测试数据集概述

1. 数据集背景与目标

使命：提供开放、可复现的衡量标准，评估AI智能体在加密货币原生任务中的推理、交互和执行能力。
目标：
- 创建领域特定的行业级评估，超越通用学术数据集，反映加密货币领域的实际情况。
- 推动生态系统发展，帮助模型提供商量化加密货币原生推理与执行的进展。

2. 数据集内容 (v0.1)

任务套件：

套件名称	任务数量	示例提示	主要工具/API
链上分析	24	"获取2025-01-02 Uniswap V3 ETH/USDC 0.05%池的日交易量(USD)"	JSON-RPC, subgraph, Dune
代币经济学深度分析	6	"计算区块N时OP的流通供应量、FDV和年度排放计划"	Etherscan, DefiLlama, CSV math
项目发现	8	"找出本周新部署的三个再质押协议并按GitHub提交数排名"	区块浏览器, GitHub API, 网页搜索
重叠任务	3	"提供EigenLayer AVS示例的合约地址和GitHub仓库"	区块浏览器, GitHub API, 网页搜索

数据格式：所有任务以json格式存储，包含task_id、question、level和evaluate等字段。

3. 评估方法

评分流程：
1. 收集参考答案、工具痕迹和推理步骤。
2. 运行候选智能体，捕获答案、工具调用、参数和推理步骤。
3. 使用多个评判LLM对每个维度进行评分，取平均值。
4. 将每个维度标准化为0-1范围。

评分维度与权重：

维度	权重	说明
答案正确性	0.1-0.4	单真相任务需完全匹配；开放性问题可部分得分
推理有效性	0.2-0.4	评估思维链（对测试模型隐藏）
工具使用准确性	0.2-0.4	(a) 调用符合意图 (b) 参数准确 (c) 无危险操作

总分计算：Σ (标准化维度 × 权重)。

4. 使用方式

使用您的智能体系统运行公共问题。
收集智能体输出并转换为预期格式。
运行评估或上传至Huggingface的Leaderboard。
分析您的分数。

预期输出格式：包含task_id、answer、tool_use_list和reasoning_list的JSON。

5. 路线图

v0.2：增加更多链上执行任务。
v0.3：增加更多数据集变体和公共排行榜。
v1.0：正式规范冻结和CITATION文件。

6. 联系方式

如有问题、反馈或合作意向，可通过Telegram联系**@james_dai**或X(twitter)联系@DaiZeshi。

搜集汇总

数据集介绍

构建方式

CAIA Benchmark的构建立足于加密货币领域的实际需求，通过精心设计的任务集来评估AI代理在加密原生任务中的表现。数据集包含四大任务套件：链上分析、代币经济学深度研究、项目发现及交叉任务，每个任务均以JSON格式呈现，详细定义了问题描述、难度等级及多维评分标准。构建过程中，团队采用真实场景下的工具链（如JSON-RPC、区块浏览器API等），并基于参考答案与工具调用轨迹建立标准化评估流程，确保任务反映加密行业的核心操作场景。

特点

该数据集显著区别于通用AI评测集，其核心特点在于高度垂直的加密货币领域适配性。任务设计涵盖智能合约交互、代币经济模型计算等专业场景，强调答案精确性、推理逻辑性及工具调用安全性三维度评估。采用动态权重机制，针对不同任务类型调整评分维度比重，例如单真值任务侧重答案匹配度，而开放性问题则强化推理有效性。数据格式规范统一，每个任务附带唯一ID和分层评分细则，支持对AI代理表现进行细粒度分析。

使用方法

使用者需按照既定流程部署AI代理系统：首先运行公开问题集，收集代理输出的答案、工具调用记录及推理步骤，并转换为标准JSON格式。评估阶段采用多法官LLM并行评分机制，对答案正确性、推理有效性等维度进行三次独立评判后取均值，最终加权计算标准化总分。结果可提交至HuggingFace排行榜进行横向对比。数据集提供完整的评分规则库（evaluator.py）和输出模板，支持用户对代理系统的加密任务处理能力进行模块化诊断与优化。

背景与挑战

背景概述

CAIA Benchmark是专为评估人工智能代理在加密货币领域任务执行能力而设计的基准测试工具，由专注于加密领域的团队开发，旨在填补现有通用AI代理评测在加密原生任务上的空白。该数据集创建于加密金融与智能合约技术蓬勃发展的背景下，聚焦于智能合约交互、去中心化金融（DeFi）数学计算及链上数据分析等核心问题。通过提供标准化任务集和透明评估体系，CAIA Benchmark不仅推动了加密领域AI代理的技术进步，还为协议团队提供了模型集成的快速测试工具，对加密金融领域的安全性、效率和智能化发展具有深远影响。

当前挑战

CAIA Benchmark面临的挑战主要体现在两个方面：领域问题的复杂性和数据集构建的技术难度。在领域问题方面，加密金融任务涉及不可逆的智能合约操作和实时价值转移，要求AI代理具备极高的准确性、确定性和可审计性，这对模型的推理能力和工具使用的精确性提出了严峻考验。在数据集构建过程中，团队需要克服加密原生任务的高度专业化挑战，包括但不限于RPC调用、去中心化交易所数学计算、Gas优化批处理等独特操作，这些任务不仅需要丰富的领域知识，还要求评测框架能够准确捕捉和评估模型在复杂加密环境中的表现。

常用场景

经典使用场景

在加密货币领域，CAIA Benchmark为AI智能体提供了一个标准化的测试环境，专门用于评估智能体在加密货币原生任务中的表现。经典使用场景包括智能合约交互、去中心化交易所（DEX）数学计算、代币经济学分析以及新兴项目发现。这些任务不仅要求智能体具备基础的区块链知识，还需要能够准确调用API、处理链上数据并生成可靠的推理结果。

实际应用

在实际应用中，CAIA Benchmark为加密货币协议团队和模型开发者提供了重要的参考价值。协议团队可以通过该基准快速测试智能体模型的集成效果，确保其在实际操作中的准确性和安全性。模型开发者则可以利用这一工具优化智能体的推理能力和工具调用效率，从而提升其在加密货币市场中的实用性和竞争力。

衍生相关工作

CAIA Benchmark的推出催生了一系列相关研究，特别是在智能体框架优化和加密货币专用工具开发方面。例如，Vals.ai Finance-agent的改进版本尝试结合更复杂的工具链来提升任务完成度。此外，一些研究团队开始探索如何将LLM-as-Judge方法扩展到更广泛的加密货币任务评估中，进一步推动了该领域的标准化和透明化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集