Herculean

Name: Herculean
Creator: The Fin AI
Published: 2026-05-04 15:01:53
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/TheFinAI/Herculean

下载链接

链接失效反馈

官方服务：

资源简介：

Herculean是一个用于评估执行金融分析任务的LLM智能体的离线基准测试数据集，包含五种金融分析任务：交易、对冲、报告生成、报告评估和XBRL文件审计。数据集由两部分组成：1) 一个DuckDB数据库（及对应的Parquet文件），包含8只美国大型科技股（AAPL、ADBE、AMZN、GOOGL、META、MSFT、NVDA、TSLA）在2024-12-01至2026-03-31期间的每日价格、新闻摘要和10-K/10-Q文件摘录；2) 一个审计环境，包含158份SEC XBRL文件（10-K和10-Q，2021-2023财年）及完整的实例文档和链接库，以及分块的US-GAAP分类标准（2021-2024）和包含4,959个数学一致性断言的ground-truth文件。数据集适用于多日、使用工具的金融任务基准测试和XBRL数字事实审计，但不适用于实时交易、预测或作为财务建议语料库。数据集包含价格、新闻和文件三个表，分别有2,656、3,888和73行数据。数据集采用CC BY 4.0许可，部分内容为美国联邦政府公共领域内容。

Herculean is an offline benchmarking dataset for evaluating LLM agents performing financial analysis tasks, encompassing five financial analysis tasks: trading, hedging, report generation, report evaluation, and XBRL file auditing. The dataset consists of two parts: 1) a DuckDB database (and corresponding Parquet files) containing daily prices, news summaries, and excerpts from 10-K/10-Q filings for eight large US tech stocks (AAPL, ADBE, AMZN, GOOGL, META, MSFT, NVDA, TSLA) from 2024-12-01 to 2026-03-31; 2) an auditing environment containing 158 SEC XBRL filings (10-K and 10-Q, fiscal years 2021-2023) with complete instance documents and linkbases, as well as chunked US-GAAP taxonomies (2021-2024) and a ground-truth file with 4,959 mathematical consistency assertions. The dataset is suitable for multi-day, tool-using financial task benchmarking and XBRL digital fact auditing, but not for real-time trading, prediction, or as a corpus for financial advice. The dataset includes three tables—prices, news, and filings—with 2,656, 3,888, and 73 rows of data, respectively. The dataset is licensed under CC BY 4.0, with some content in the public domain of the US federal government.

提供机构：

The Fin AI

创建时间：

2026-05-04

原始信息汇总

Herculean: 金融智能体评估基准数据集

数据集概述

Herculean 是一个用于评估 LLM 智能体在五项金融分析任务中表现的离线基准数据集。所有任务均基于完全离线数据运行，确保结果可复现且在不同模型间可比。

数据集规模

总样本量：1,000 < n < 10,000
数据覆盖：8只美国 mega-cap 科技股（AAPL, ADBE, AMZN, GOOGL, META, MSFT, NVDA, TSLA）
时间范围：2024-12-01 → 2026-03-31（约16个月）

数据集组成

1. 核心数据库（env.duckdb）

数据表	行数	列数	描述
prices	2,656	9	日度OHLC价格、调整收盘价、成交量（符号、日期、开盘、最高、最低、收盘、调整收盘、成交量）
news	3,888	4	每日新闻摘要（符号、日期、摘要内容）
filings	73	6	10-K/10-Q财报文本（符号、日期、文件类型、MD&A内容、风险内容）

2. Parquet 格式数据（data/）

提供与 DuckDB 表完全一致的 Parquet 文件（ZSTD压缩），支持通过 Hugging Face Datasets 直接加载。

3. 审计数据（auditing_env/）

158份SEC XBRL文件（10-K和10-Q，2021–2023财年）
- 每份文件包含：XBRL实例文档、计算/定义/标签/展示链接库
US-GAAP分类标准分块（2021–2024年）
- 每年约20k概念块、50k关系边
4,959条数学一致性断言（mathematical_reasoning.csv）

评估任务

数据集支持五项金融分析任务：

交易（Trading）
对冲（Hedging）
报告生成（Report Generation）
报告评估（Report Evaluation）
XBRL文件审计（XBRL Filing Auditing）

数据来源与预处理

价格数据：来源于公开的日度OHLCV数据
新闻摘要：LLM生成的每日摘要（基于公开事件）
财报文本：从SEC EDGAR 10-K/10-Q文件中提取
XBRL文件：直接从SEC EDGAR下载，保持字节一致
分类标准：来自FASB官方US-GAAP财务报告分类标准

数据加载方式

通过 Hugging Face Datasets（Parquet格式）： python from datasets import load_dataset prices = load_dataset("TheFinAI/Herculean", "prices", split="train") news = load_dataset("TheFinAI/Herculean", "news", split="train") filings = load_dataset("TheFinAI/Herculean", "filings", split="train")

通过 DuckDB（单文件）： python import duckdb con = duckdb.connect("env.duckdb", read_only=True) con.execute("SELECT symbol, date, close FROM prices WHERE symbol=TSLA ORDER BY date").df()

预期用途

基准测试LLM智能体在多日、工具使用的金融任务中的表现
审计XBRL数值事实
研究智能体推理质量

使用限制

非用于实盘交易
非预测性基准
非投资建议语料库

已知局限性

仅覆盖8只mega-cap科技股（行业和市值偏倚严重）
时间窗口短（仅约16个月）
新闻字段为LLM摘要（可能继承摘要器偏差）
财报文本仅含MD&A和风险因素部分
XBRL样本偏向于被DQC规则标记的文件

偏见与风险

存在幸存者/大市值偏倚
仅含英语、US-GAAP、美国发行人数据
数据截止至2026-03-31
不含个人身份信息

许可证

数据：CC BY 4.0
SEC XBRL文件：美国联邦政府公共领域内容
US-GAAP分类标准：FASB免费使用

引用

bibtex @misc{herculean_2026, title = {Herculean: An Offline Multi-Skill Evaluation Benchmark for LLM Agents in Finance}, author = {Peng, Xueqing}, year = {2026}, url = {https://huggingface.co/datasets/TheFinAI/Herculean} }

搜集汇总

数据集介绍

构建方式

Herculean数据集由多项金融数据源经系统性整合而成。价格数据源自公开的OHLCV日终行情，新闻摘要由大语言模型对每日公开事件进行浓缩提炼，文本摘要则从SEC EDGAR平台的10-K/10-Q文件中提取MD&A及风险因素章节。XBRL审计部分收录了158份SEC原始申报文档，包含实例文档及计算、定义、标签、展示等完整链接库，并辅以US-GAAP分类标准的分块序列（涵盖2021-2024年）以及基于XBRL US数据质量委员会规则生成的4,959条数学一致性断言。所有数据最终被整理为单一DuckDB数据库或ZSTD压缩的Parquet文件，以供离线使用。

特点

该基准测试聚焦于五大金融分析任务——交易、对冲、报告生成、报告评估及XBRL申报审计，所有任务均完全离线运行，不依赖实时市场或网络访问，从而确保实验结果的完全可复现性与模型间可比性。数据涵盖苹果、亚马逊、英伟达等8只美国超大盘科技股，时间窗口约为16个月（2024年12月至2026年3月）。构建者刻意强调该基准旨在衡量智能体的推理质量与规范遵循能力，而非市场预测准确性或实际交易收益。同时，数据明确声明存在幸存者偏差、行业集中、英语及US-GAAP局限等偏倚风险，并对新闻摘要中可能蕴含的生成模型偏差予以记录。

使用方法

使用者可通过Hugging Face Datasets库直接加载Parquet文件，以三张独立表格形式获取价格、新闻与申报文本数据，亦可直接连接DuckDB数据库进行SQL查询。XBRL审计数据则以JSONL序列文件形式提供，便于流式处理。代码仓库包含五个技能对应的MCP服务器及评测运行器，研究人员可基于此对语言模型智能体进行多日、工具驱动的金融任务评估。值得注意的是，该数据集明确禁止用于实盘交易、策略回测或作为投资建议来源，其设计初衷完全服务于离线环境下智能体推理能力的学术研究与比较性基准测试。

背景与挑战

背景概述

Herculean数据集由Xueqing Peng于2026年创建，旨在为金融领域的大语言模型（LLM）智能体提供一个离线、可复现的多技能评估基准。在金融分析日益依赖自动化工具的背景下，该数据集聚焦于五项核心任务：交易、对冲、报告生成、报告评估及XBRL文件审计。通过整合8家美国大型科技股（如AAPL、MSFT、NVDA）的日度价格、新闻摘要及SEC 10-K/10-Q文件节选，并嵌入基于SEC数据质量委员会规则的4959条数学一致性断言，Herculean为评估智能体的工具使用与推理质量奠定了坚实基础，对推动金融AI基准测试的标准化具有重要意义。

当前挑战

该数据集所解决的领域挑战在于金融分析任务的复杂性与实时性：LLM智能体需在离线环境中模拟多日、多工具协作，处理数据准确性、逻辑一致性及合规性（如XBRL审计）等专业问题，而非仅依赖市场价格预测。构建过程中，面临符号集狭窄（仅8只大型科技股）和窗口期短（约16个月）导致的领域与市场周期偏差；新闻字段源于LLM摘要，可能引入上游归纳偏差；文件文本仅包含MD&A与风险章节，缺乏完整语义；XBRL样本偏向DQC规则标记的备案，未能全面代表EDGAR整体分布。这些限制要求基准测试结果需谨慎外推至小盘股或非美国市场。

常用场景

经典使用场景

Herculean数据集作为金融领域大语言模型智能体的离线评估基准，其经典使用场景聚焦于五项核心金融分析技能的量化评测：交易决策、对冲策略、报告生成、报告评估以及XBRL财务报告审计。研究人员可借助该数据集中固定的历史价格、新闻摘要和SEC文件摘录，在完全脱离实时市场与网络访问的封闭环境下，反复运行智能体以获取可复现、可比对的性能指标，从而客观衡量模型在多步骤工具调用推理中的表现。

实际应用

在实际产业场景中，Herculean数据集的构建理念直接服务于金融机构对智能投研系统的可控性要求。例如，资产管理公司可利用该基准筛选具备多日持仓规划能力的交易智能体，确保算法在策略调整前能依据历史数据进行合规推理；会计事务所可借助其审计模块验证大模型在XBRL财务事实一致性检查中的准确率，提升财报审阅效率。此外，金融科技开发者可基于该基准迭代智能体框架，在部署前系统性地测试其处理SEC文件摘要、新闻事件整合等复杂文档任务的能力，降低因模型幻觉引发的合规风险。

衍生相关工作

围绕Herculean数据集已衍生出一系列聚焦金融智能体可解释性与鲁棒性的学术工作。研究者基于其交易任务构建了多智能体协作框架，探索不同角色分工对投资决策逻辑链的影响；另有工作借鉴其审计模块的数学推理真值表，设计出面向XBRL计算链接库的渐进式错误定位算法，将单一的事实校验扩展为跨文档的语义一致性推理。此外，该数据集所定义的五项技能体系，为后续金融大模型基准如FinBen、BloombergGPT的评测方法论提供了离线化、模块化的设计范式，推动领域内从简单问答向复杂工作流评估的范式转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集