CryptoAnalystBench

github2026-01-29 更新2026-02-06 收录

下载链接：

https://github.com/sentient-agi/CryptoAnalystBench

下载链接

链接失效反馈

官方服务：

资源简介：

用于Web3/加密领域查询的长篇回答质量评估工具。该系统可用于通过法官LLM评估多个AI回答。

A long-form answer quality evaluation tool for Web3/crypto domain queries. This system can be used to assess multiple AI-generated responses via a judge LLM.

创建时间：

2026-01-29

原始信息汇总

CryptoAnalystBench 数据集概述

数据集基本信息

数据集名称：CryptoAnalystBench
主要用途：用于评估AI模型在Web3/加密货币领域查询上的长文本回答质量。
评估方法：使用评判大语言模型（默认Deepseek-V3.1-671B）对多个AI回答在四个关键维度上进行自动化评分。

评估维度

系统对每个回答在以下四个参数上进行评分（1-10分）：

相关性：回答与特定问题的匹配程度。
时效性：信息的及时性和新颖性。
深度：回答的全面性和详细程度。
数据一致性：信息的一致性和无矛盾性。

数据集内容

查询数量：198个查询。
类别数量：11个独特类别。
类别分布：
- 项目与基础研究：36
- 市场数据与价格发现：34
- 链上分析与资金流：33
- 宏观与叙事背景：23
- 交易与策略设计：19
- 加密货币概念与操作指南：17
- 比较与性能分析：13
- Meme币：10
- 安全与风险：10
- NFT：2
- 默认/通用分析：1

数据文件与格式

主数据集文件：data/dataset.csv
输入文件要求：CSV格式，需放置在data/input/目录下。
必需列：
- query：需要评估的加密货币/区块链问题。
- {model_name}_response：每个模型的回答列（例如sentient_response，gpt5_response）。
可选列：
- tags：查询的类别标签。

输出结果

评估生成位于data/output/目录的XLSX文件，包含：

评估结果（详细分数和排名）。
每个模型的统计信息（聚合指标）。
按标签的排名（按查询类别的性能表现）。

搜集汇总

数据集介绍

构建方式

在加密货币与区块链技术蓬勃发展的背景下，CryptoAnalystBench 数据集应运而生，旨在为长格式响应质量评估提供基准。该数据集通过精心设计，涵盖了 Web3 与加密领域的 198 个查询问题，这些问题被系统地划分为 11 个独特类别，包括项目与基础研究、市场数据与价格发现、链上分析与资金流等。构建过程注重领域覆盖的广度与深度，确保每个查询都能反映真实世界中的分析师需求与信息挑战，从而为后续的自动化评估奠定坚实的数据基础。

特点

该数据集的核心特点在于其多维度的评估框架与精细的类别划分。它不仅提供了丰富的查询样本，还引入了四个关键评估维度：相关性、时间相关性、深度以及数据一致性。每个维度均采用十分制进行量化评分，使得评估结果具备高度的可解释性与可比性。此外，数据集覆盖了从宏观叙事到具体交易策略的广泛主题，特别是包含了模因币、安全风险等新兴或关键领域，这确保了评估能够全面反映模型在复杂且动态的加密生态中的综合表现能力。

使用方法

使用该数据集进行评估时，需遵循一套清晰的自动化流程。用户首先需要准备一个包含各模型对数据集中查询所作响应的输入 CSV 文件，其中必须包含查询列以及以模型名命名的响应列。随后，通过配置环境变量并运行指定的 Python 脚本，系统将调用预设的评判大语言模型对每个响应进行并行评分。最终，评估流程会生成详细的 Excel 报告，其中包含每个模型的综合统计数据、按查询类别的性能排名以及深入的比较分析，为用户提供直观且结构化的模型性能洞察。

背景与挑战

背景概述

随着区块链与加密货币领域的迅猛发展，对人工智能模型在该领域生成内容的评估需求日益凸显。CryptoAnalystBench 由 SentientAGI 研究团队于近期创建，旨在构建一个专门针对Web3与加密货币领域的长文本响应质量评估基准。该数据集聚焦于评估大型语言模型在回答复杂加密市场分析、项目研究、链上数据解读等专业问题时的表现，核心研究问题在于如何系统、多维度地量化模型输出的相关性、时效性、深度与数据一致性。这一基准的建立，为推进领域专用人工智能的可靠性与实用性提供了重要的评估工具，对加密金融分析与智能决策支持系统的研发具有显著的推动作用。

当前挑战

在加密货币这一高度动态且专业化的领域，构建有效的评估基准面临多重挑战。首要挑战源于领域问题本身：加密市场信息瞬息万变，模型需具备极强的时效性判断与快速演变概念的理解能力；同时，该领域涉及大量专业术语、复杂经济模型与链上技术细节，要求评估标准能精准衡量回答的深度与准确性。在数据集构建过程中，挑战包括如何设计具有代表性且覆盖广泛子领域（如市场数据、项目研究、安全风险等）的查询集合，以及如何建立一套自动化、可复现且具有高判别力的多维度评分体系，以确保评估结果既客观全面又能真实反映模型在实践场景中的分析能力。

常用场景

经典使用场景

在区块链与加密货币领域，随着人工智能技术的深度融合，对大型语言模型在专业场景下的响应质量评估需求日益迫切。CryptoAnalystBench数据集通过构建一个包含198个查询、覆盖11个独特类别的基准测试集，为研究人员提供了系统评估模型在Web3领域长文本生成能力的标准化工具。其经典使用场景在于，利用预设的深度、相关性、时效性与数据一致性四个维度，对多个模型的输出进行自动化、可量化的横向比较，从而揭示不同模型在复杂加密货币分析任务中的性能差异与优势短板。

衍生相关工作

围绕CryptoAnalystBench数据集，已衍生出一系列聚焦于垂直领域大模型评估的经典研究工作。这些工作主要沿两个方向展开：一是评估方法的拓展，例如探索结合链上实时数据流进行动态评估的框架，或将人类专家评分与自动化评判进行对齐与融合；二是模型能力的专项研究，包括利用该基准探究模型在理解特定代币经济模型、解析复杂链上交易模式或追踪市场叙事演变等方面的极限。这些衍生工作共同深化了人们对大模型在非结构化金融数据理解与推理边界认知，为构建下一代专业级金融人工智能奠定了基础。

数据集最近研究