QuantCode-Bench

github2026-04-21 更新2026-04-19 收录

下载链接：

https://github.com/LimexAILab/QuantCode-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

QuantCode-Bench是一个用于评估大型语言模型生成可执行算法交易策略能力的基准数据集。该数据集包含400个交易策略生成任务，这些任务来自多个来源，包括Reddit、TradingView、StackExchange、GitHub和合成数据。任务分为三个难度级别：简单、中等和困难。每个任务都包括一个特定的股票代码和时间框架，以便在适当的历史市场数据上进行回测。

QuantCode-Bench is a benchmark dataset designed to evaluate the ability of large language models (LLMs) to generate executable algorithmic trading strategies. This dataset comprises 400 trading strategy generation tasks sourced from multiple platforms including Reddit, TradingView, StackExchange, GitHub, as well as synthetic data. The tasks are categorized into three difficulty levels: easy, medium, and hard. Each task includes a specific stock ticker and time frame, ensuring that the generated strategies can be backtested on appropriate historical market data.

创建时间：

2026-04-10

原始信息汇总

QuantCode-Bench 数据集概述

数据集简介

QuantCode-Bench 是一个用于评估大语言模型生成可执行算法交易策略能力的基准测试。该基准专注于测试模型将自然语言策略描述转化为基于 Backtrader 框架的功能性交易代码的能力。

核心特点

评估重点：要求模型同时掌握特定领域的金融逻辑、专用 API 知识，并生成不仅语法正确且能在历史数据上实际产生交易的代码。
任务多样性：每个任务指定了独立的交易品种和时间框架（例如 AAPL 日线、BTC-USD 1小时、EURUSD=X 15分钟），要求生成的策略能适应不同的市场工具和数据粒度。

数据集构成

任务规模与来源

数据集包含 400 个交易策略生成任务，任务来源分布如下：

Reddit: 183 个
TradingView: 100 个
StackExchange: 90 个
GitHub: 19 个
Synthetic: 8 个

任务难度分级

任务分为三个难度等级：

简单: 197 个
中等: 116 个
困难: 87 个

任务数据结构

每个任务包含以下信息：

唯一标识符 (id)
重新表述的任务描述 (reformulated_task)
来源 (source)
难度等级 (difficulty)
交易品种标识 (ticker, yf_symbol)
时间框架 (timeframe)

评估框架

四阶段评估流程

编译：检查代码语法正确性。
回测：策略在特定资产历史数据上执行且无运行时错误。
交易：策略至少产生一笔交易。
判断：由 LLM 判断器确认策略与任务描述的语义对齐。

评估模式

支持两种评估设置：

单轮评估：模型必须在首次尝试中生成正确策略。
多轮智能体评估：模型接收结构化反馈并可迭代优化策略（最多 10 轮）。

评估指标

编译率：无错误编译的策略百分比。
回测率：无运行时错误执行的策略百分比。
交易率：至少产生一笔交易的策略百分比。
判断通过率：通过语义对齐检查的策略百分比。

数据与文件

主要任务文件：data/benchmark_tasks_multiframe.json（包含 400 个评估任务）
数据需求文件：data/task_data_requirements.json（每任务的数据需求）
市场数据缓存：通过脚本下载 OHLCV 数据至 data/cache/ 目录

引用信息

如需在研究中使用本数据集，请引用：

@article{khoroshilov2026quantcodebench, title={QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies}, author={Khoroshilov Alexey and Chernysh Alexey and Ekhtibarov Orkhan and Kamkia Nini and Zmitrovich Dmitry}, year={2026}, url={https://github.com/LimexAILab/QuantCode-Bench} }

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在量化交易领域，构建一个能够评估大语言模型生成可执行交易策略能力的数据集需要严谨的设计。QuantCode-Bench通过从多个专业社区收集了400个交易策略生成任务，这些任务来源于Reddit、TradingView、StackExchange和GitHub等平台，并辅以少量合成数据。每个任务均标注了难度等级，涵盖简单、中等和困难三个层次，并指定了具体的交易品种和时间框架，确保策略能够针对多样化的市场工具和数据粒度进行测试。数据集的构建过程注重真实性和覆盖面，旨在模拟实际交易场景中的复杂需求。

特点

该数据集的核心特点在于其四阶段评估管道，从代码编译、回测执行到交易生成，最终通过大语言模型进行语义对齐判断，全面检验策略的可行性与有效性。任务设计跨越不同难度级别，覆盖股票、加密货币和外汇等多种金融工具，要求模型不仅掌握领域特定的金融逻辑，还需熟悉Backtrader等专业API。这种多层次、多源头的结构使得QuantCode-Bench能够精准衡量模型在量化策略生成中的综合能力，为研究提供了丰富的评估维度。

使用方法

使用QuantCode-Bench时，需预先通过脚本缓存市场数据，以避免评估过程中的网络限制。数据集支持单轮和代理多轮两种评估模式，用户可通过配置环境变量指定生成模型和评判模型，运行相应的Python脚本进行基准测试。评估指标包括编译率、回测率、交易率和评判通过率，这些指标共同反映了模型生成策略的准确性与实用性。通过清晰的目录结构和示例代码，研究者可以便捷地集成该数据集，推动量化交易与人工智能交叉领域的前沿探索。

背景与挑战

背景概述

在量化金融与人工智能交叉领域，算法交易策略的自动生成已成为前沿研究方向。QuantCode-Bench由LimexAILab团队于2026年创建，旨在系统评估大型语言模型将自然语言策略描述转化为可执行交易代码的能力。该数据集聚焦于Backtrader框架下的策略生成，核心研究问题在于模型是否能够同时掌握领域特定的金融逻辑、专用API知识，并生成在历史数据上实际产生交易的代码。其影响力体现在为量化策略自动化提供了首个综合性评估基准，推动了金融自然语言处理与代码生成技术的融合。

当前挑战

QuantCode-Bench所针对的领域挑战在于算法交易策略生成需跨越多重复杂性：模型必须准确理解金融指标（如RSI）的动态逻辑，适配不同标的资产（如股票、加密货币）与时间粒度（如日线、小时线），并确保生成代码在历史回测中具备可执行性与交易信号有效性。在构建过程中，数据集面临收集高质量、多样化的自然语言策略描述的挑战，需从Reddit、TradingView等多源平台整合400项任务，并依据难度分级；同时，为每项任务匹配特定标的和时段的历史市场数据，涉及数据获取、缓存与验证的技术复杂性，以确保回测环境的真实性与一致性。

常用场景

经典使用场景

在量化金融领域，算法交易策略的自动化生成一直是研究热点。QuantCode-Bench作为专门评估大语言模型生成可执行交易策略能力的基准，其经典使用场景聚焦于模型如何将自然语言描述的策略指令转化为基于Backtrader框架的功能性代码。这一过程不仅要求模型掌握金融领域的专业知识，还需理解特定API的调用逻辑，确保生成的代码在历史数据上能够编译、执行并产生实际交易信号，从而为量化策略开发的智能化提供标准化测试环境。

实际应用

在实际应用中，QuantCode-Bench可作为金融机构与科技公司开发自动化策略生成工具的核心测试平台。通过支持单轮与多轮代理式评估，它能够模拟真实场景中策略迭代优化的过程，帮助工程师筛选出在多种市场仪器（如股票、加密货币、外汇）及不同时间粒度下表现稳健的模型。这不仅加速了量化策略的研发周期，也为低代码或无代码交易系统提供了技术验证基础，助力金融科技向更高程度的智能化迈进。

衍生相关工作

围绕QuantCode-Bench，衍生出一系列专注于领域特定代码生成与智能体评估的研究工作。例如，基于其多轮反馈机制，研究者探索了强化学习在策略迭代优化中的应用；同时，该基准也催生了针对金融语义理解与API知识注入的模型微调方法。此外，结合其四阶段评估逻辑，后续工作进一步扩展了跨市场、多资产类别的策略生成基准，形成了量化金融与自然语言处理交叉领域的一套方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集