SysTradeBench (SysTB)

Name: SysTradeBench (SysTB)
Creator: 香港城市大学; 浙江大学
Published: 2026-04-07 00:16:24
License: 暂无描述

arXiv2026-04-07 更新2026-04-07 收录

下载链接：

https://github.com/YgcCoder/SysTB

下载链接

链接失效反馈

官方服务：

资源简介：

SysTradeBench是由香港城市大学和浙江大学联合开发的策略到代码交易系统基准测试数据集，包含12种典型交易策略的标准化规范文档和冻结语义定义。数据集覆盖美股、加密货币和中国A股三大市场，包含2024-2025年期间14种金融工具的日频和分钟级OHLCV数据，其中加密货币分钟数据达百万条级别。通过SHA256哈希校验的冻结语义合约确保策略迭代过程中的语义一致性，沙盒化执行环境实现确定性检测和防泄漏验证。该数据集专为评估LLM生成的交易系统在规范遵循性、风险纪律、可靠性和样本外鲁棒性等维度的系统级表现而设计，支持证据驱动的构建-测试-修补迭代流程。

提供机构：

香港城市大学; 浙江大学

创建时间：

2026-04-07

原始信息汇总

SysTradeBench (SysTB) 数据集概述

数据集简介

SysTradeBench (SysTB) 是首个应用迭代构建-测试-修复协议，并采用冻结语义约束和漂移感知诊断的基准测试，用于评估大语言模型在量化交易中从策略到代码的完整生成能力。其特点包括沙箱执行、有效性门控和跨模型竞技场。

核心特点

12种真实交易策略：涵盖美股、A股和加密货币市场，每种策略均包含冻结的自然语言规范和语义模式。
17个前沿大语言模型评估：评估了GPT-5、o3、Claude Opus/Sonnet、Gemini 3、Grok 4、DeepSeek-V3、GLM-4、Qwen3-Coder等模型（共邀请20个，3个因API故障被排除）。
四维评分卡：包含D1规范保真度、D2风险纪律、D3可靠性、D4样本外稳健性，并设有自动有效性门控。
迭代精炼协议：包含Iter0零样本生成，以及Iter1–3基于证据的、语义冻结的修复。
N×N交叉评估竞技场：每个评审模型为每个提交模型评分，自我评审被排除。

策略库

包含12种经典的量化策略，涵盖趋势跟踪、均值回归、套利和风险管理。

序号	策略	适用市场
1	布林带均值回归	美股 · A股 · 加密货币
2	双移动平均线交叉	美股 · A股 · 加密货币
3	海龟/唐奇安突破	美股 · A股 · 加密货币
4	双重推力	加密货币
5	R-Breaker	加密货币
6	价差交易	美股 · A股
7	日历价差套利	美股
8	指数增强	美股 · A股
9	跨资产动量/风险偏好轮动	美股 · A股
10	波动率目标/波动率缩放	美股 · A股 · 加密货币
11	配对交易（Z分数）	美股 · A股
12	RSI/MACD趋势跟踪	美股 · A股 · 加密货币

数据详情

基准测试使用2024–2025年数据（24个月，训练集：2024-01-01 ~ 2025-01-01，测试集：2025-01-01 ~ 2026-01-01），涵盖三个市场的14种标的。

市场	标的	频率	每资产行数
美股	AAPL · MSFT · GOOGL · AMZN · TSLA	日频	~502
A股	600519 (茅台) · 300750 (宁德时代) · 600036 (招商银行) · 000333 (美的集团) · 002594 (比亚迪)	日频	~485
加密货币	BTC/USDT · ETH/USDT · BNB/USDT	日频	~367

数据文件包含在代码库的 data/ 目录下（总计约308 KB）：

data/us_daily/：包含AAPL、MSFT、GOOGL、AMZN、TSLA的日频OHLCV数据。
data/cn_daily/：包含600519、300750、600036、000333、002594的日频OHLCV数据。
data/crypto_daily/：包含BTCUSDT、ETHUSDT、BNBUSDT的日频OHLCV数据。
data/crypto_1min_sample/：包含BTCUSDT、ETHUSDT、BNBUSDT在2024年1月的1分钟频率OHLCV样本数据（每对约44K行）。

完整的1分钟数据（Dual Thrust和R-Breaker策略需要，约每资产每年525K行）因体积过大未包含在GitHub中，需从Binance Data Vision下载。

评估框架与结果摘要

有效性门控通过率：评估包含解析、模式、执行、确定性、防泄漏、审计六道门。顶级模型（如GPT-5.2、o3）在所有策略上达到100%通过率。
策略质量评分：策略复杂度与质量得分呈负相关（Spearman ρ = -0.68）。双移动平均线交叉策略平均得分最高（7.85）。
样本外执行稳健性：在235个样本外测试中，217个（92.3%）成功执行，18个（7.7%）出现运行时错误。
迭代修复轨迹：证据驱动的修复在Iter0到Iter1带来最大的质量提升，Iter2出现收敛陷阱，Iter3通过多目标反馈实现恢复。
代币使用与成本效益：根据成本和总体得分，模型分为Premium、Balanced、Budget三个层级。
代码质量差异：相同的冻结规范下，不同大语言模型生成的代码质量存在显著差异。
交叉评估竞技场：N×N交叉评估显示，GPT-5.2、Grok-4 Fast、o3位列第一梯队。评审模型的严格程度存在差异。

使用要求

Python 3.9+
依赖库：pandas, numpy, pyyaml, openai, anthropic
需配置API密钥文件 configs/models.yaml（基于模板创建）。

搜集汇总

数据集介绍

构建方式

在量化金融领域，系统化交易策略的代码生成正逐步依赖大语言模型作为研究助手。SysTradeBench（SysTB）的构建遵循迭代式构建-测试-修补范式，旨在评估策略到代码交易系统的可治理性与可审计性。该数据集基于12种经典交易策略，每种策略均提供标准化的基础策略文档与冻结语义规范，要求模型生成结构化策略卡片、可执行代码及强制性审计日志。通过沙盒化执行环境实施确定性检验、防泄漏检查与漂移感知诊断，确保代码在多次迭代中保持语义一致性，同时支持基于证据束的受控修补，以模拟真实世界中的策略调试与优化流程。

使用方法

使用SysTradeBench时，研究者或开发者需遵循其迭代工作流程。首先，模型接收基础策略文档与冻结语义，零次生成策略卡片、可执行代码及审计日志。随后，沙盒化执行器运行提交的代码，进行有效性门控检验（如解析、模式、执行、确定性、防泄漏及审计完整性），并生成包含多维评分、违规信息及改进建议的证据束。在后续迭代中，模型基于证据束进行受控修补（每次修改不超过50行代码），同时保持语义冻结。最终，评估层输出涵盖四个维度的综合评分卡，支持模型在系统正确性、可审计性及迭代修复能力方面的横向比较与深入分析。

背景与挑战

背景概述

SysTradeBench（SysTB）是由香港城市大学与浙江大学的研究团队于2026年提出的一个系统级基准测试数据集，旨在评估大型语言模型在量化金融领域中从自然语言策略描述生成可执行交易代码的能力。该数据集聚焦于策略到代码的转换过程，强调生成代码的规范性、可审计性及系统级正确性，而非仅关注单一盈利指标。通过引入迭代式的构建-测试-修补框架，SysTradeBench模拟了实际交易系统中严格的工程控制与治理要求，为量化金融与软件工程的交叉研究提供了重要的评估工具。

当前挑战

SysTradeBench致力于解决策略到代码转换领域的核心挑战，即确保生成的交易系统具备高保真度、风险纪律、可靠性与样本外鲁棒性。构建过程中的挑战包括：设计并维护语义冻结的策略规范以防止迭代中的语义漂移；实现沙盒化执行环境以强制确定性、防泄漏与审计完整性；以及开发多维评分卡来量化系统级治理属性，超越传统盈利指标的局限性。

常用场景

经典使用场景

在量化金融领域，SysTradeBench（SysTB）作为一个系统级基准测试，其经典使用场景聚焦于评估大型语言模型（LLM）在策略到代码转换任务中的能力。该基准模拟了机构交易中的实际工作流程：研究人员提供基于自然语言的策略规范文档，模型需生成可执行的交易代码、结构化策略卡片及强制性审计日志。通过沙盒化执行环境，SysTB对生成代码进行确定性检验、防泄漏检查，并支持在证据驱动下的迭代修复，从而系统性地衡量模型将策略描述转化为可审计、可治理软件系统的综合性能。

解决学术问题

SysTradeBench致力于解决量化金融与软件工程交叉领域的核心学术问题。传统评估往往仅关注静态金融知识或单一盈利指标，忽略了策略代码作为受控软件的关键属性，如规范保真度、风险纪律、可靠性与样本外稳健性。该数据集通过多维评分卡（D1-D4）和漂移感知诊断，系统性地量化了LLM生成交易系统在语义等价性、约束遵从、确定性执行及审计追踪等方面的表现，填补了现有基准在系统级正确性与可治理性评估上的空白，为LLM在金融软件自动化中的可靠部署提供了严谨的评估框架。

实际应用

在实际应用中，SysTradeBench为金融机构和量化研究团队提供了评估与筛选AI辅助开发工具的关键标准。其支持证据驱动的构建-测试-修补循环，使得团队能够利用LLM进行快速原型迭代与浅层错误修复，同时通过强制审计日志和漂移检测确保代码变更符合监管与内控要求。该基准帮助实践者在成本效益权衡下选择合适模型，例如利用中等成本模型进行零样本筛选，再对关键策略进行迭代优化，从而在实际部署中平衡开发效率、代码质量与系统多样性，强化人机协同的量化研究治理流程。

数据集最近研究