MacroLens

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/macrolens/MacroLens

下载链接

链接失效反馈

官方服务：

资源简介：

MacroLens是一个用于宏观经济情景下上下文金融推理的多任务基准数据集，涵盖4,416只美国小型和微型资本股票（2021-01-04至2026-03-31）。该数据集统一了七个任务：上下文时间序列预测、公共估值、财务报表生成、情景条件回报预测、私营公司估值、自然语言描述的生成器评估以及房地产估值。每个实例包含一个131个数值/141列的时间点面板（价格、46.8M XBRL会计事实、53个宏观经济系列、文件最近性、衍生比率）、可选的宏观经济情景对象（1,130个事件，涵盖49种类型）以及可选的SEC文件和金融新闻上下文。数据集分为每日、每周和每月粒度，包含训练集和测试集。数据来源包括SEC EDGAR、FRED、EIA、yfinance和RentCast等，部分数据需要用户凭据重新获取。数据集采用CC-BY-4.0许可，代码采用MIT许可。

MacroLens is a multi-task benchmark dataset for contextual financial reasoning under macroeconomic scenarios, covering 4,416 US small and micro-capital stocks (2021-01-04 to 2026-03-31). The dataset unifies seven tasks: contextual time-series forecasting, public valuation, financial statement generation, scenario-conditional return forecasting, private company valuation, generator evaluation of natural language descriptions, and real estate valuation. Each instance contains a 131-value/141-column point-in-time panel (prices, 46.8M XBRL accounting facts, 53 macroeconomic series, document recency, derived ratios), optional macroeconomic scenario objects (1,130 events covering 49 types), and optional SEC filings and financial news context. The dataset is divided into daily, weekly, and monthly granularities, including training and test sets. Data sources include SEC EDGAR, FRED, EIA, yfinance, and RentCast, among others, with some data requiring user credentials for reacquisition. The dataset is licensed under CC-BY-4.0, and the code is under MIT license.

创建时间：

2026-05-05

原始信息汇总

MacroLens 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语
数据规模: 1M < n < 10M
任务类型: 时间序列预测、表格回归、文本生成、问答
标签: 金融、宏观经济、多模态、基准测试、SEC EDGAR、XBRL、RentCast、小盘股、罗素2000、私人估值、情景条件预测

数据集描述

MacroLens 是一个面向宏观经济情景下的上下文金融推理的多任务基准数据集，覆盖 4,416 只美国小型和微型股票（时间跨度：2021-01-04 至 2026-03-31）。该数据集在单一时间点面板上统一了七个任务。

七项任务

任务	类型	输出
T1 上下文预测	时间序列	预测区间收盘价轨迹
T2 公开估值	表格回归	股权市值
T3 财务报表生成	结构化生成	每个（股票代码，财年）的11个XBRL标准字段
T4 情景条件收益预测	事件预测	63天后的事件后收益百分比
T5 私人公司估值	表格回归（去价格化）	无市场数据的股权价值
T6 生成器评估	自然语言→结构化	从公司自然语言描述生成相同的11个字段
T7 房地产估值	跨域回归	基于RentCast地址的租金+价格

数据特征

每个实例包含：

131个数值/141列的时间点面板（价格、4680万XBRL会计事实、53个宏观经济序列、提交时效、衍生比率）
可选的宏观经济情景对象（49种类型共1,130个事件）
可选的SEC文件和金融新闻上下文
时间对齐严格遵循“时间点原则”：预测时间戳 t 处可见的每个观察值在 t 之前已公开可用

数据集结构

data/ ├── daily/ # 主粒度（484万面板行） │ ├── panel_train.parquet # T1, T4 训练集 │ ├── panel_test.parquet # T1, T4 测试集 │ ├── scenarios.parquet # 1,130个宏观经济事件 │ ├── valuation_inputs.parquet # T2 特征+真实值 │ ├── private_valuation_inputs.parquet # T5（去价格化） │ ├── generation_inputs.parquet # T3 基本面快照 │ ├── generation_ground_truth.parquet # T3 长格式（股票代码，财年，字段，值） │ ├── generator_eval_inputs.parquet # T6 自然语言公司描述 │ ├── generator_eval_ground_truth.parquet │ └── scenario_forecast_ground_truth.parquet # T4 真实值 ├── weekly/ # 周五收盘重采样（101万行） ├── monthly/ # 最后一个交易日重采样（23.2万行） ├── real_estate/ │ ├── re_train_properties.parquet # T7 训练（53,804个唯一地址） │ └── re_eval_inputs.parquet # T7 评估（23,190个唯一地址） ├── xbrl/ # 4680万标准化XBRL事实，覆盖92.6%股票代码 ├── filings/ # 295,860份SEC文件（10-K, 10-Q, 8-K, 20-F, 6-K, N-CSR, N-CSRS）— markdown + PDF ├── prices/ # OHLCV + 调整收盘价（yfinance） ├── fundamentals/ # 季度报表（yfinance，约320万行） ├── macro/ # 46个FRED + 7个EIA序列 └── manifest.json # 每个parquet文件的SHA-256哈希（可追溯）

数据配置

数据集包含以下配置，可通过Hugging Face数据集库加载：

配置名称	文件内容
`panel_daily`	日度面板训练/测试集
`panel_weekly`	周度面板训练/测试集
`panel_monthly`	月度面板训练/测试集
`scenarios_daily`	日度情景
`valuation_inputs_daily`	公开估值输入
`private_valuation_inputs_daily`	私人公司估值输入
`generation_inputs_daily`	生成任务输入
`generation_ground_truth_daily`	生成任务真实值
`generator_eval_inputs_daily`	生成器评估输入
`generator_eval_ground_truth_daily`	生成器评估真实值
`scenario_forecast_ground_truth_daily`	情景预测真实值
`real_estate_train`	房地产训练数据
`real_estate_eval`	房地产评估数据

数据来源

已捆绑（无需用户凭证）

来源	内容	许可
SEC EDGAR	29.5万文档、4680万XBRL事实	公共领域（美国政府）
FRED	46个宏观经济序列	公共领域
EIA	7个商品序列	公共领域
yfinance	价格（OHLCV）、基本面（季度）— 衍生特征	非商业用途
RentCast	地址级衍生特征（租金+价格目标、物业属性）	RentCast使用条款 — 仅限衍生特征
宏观经济事件	1,130个事件×49种类型	CC-BY-4.0

未捆绑（需用户凭证）

来源	用户端要求
金融新闻提供商	用户自备新闻API密钥（用于`collect_news.py`）
RentCast原始数据	用户自备RentCast订阅（用于`collect_real_estate.py`原始模式）

股票池

4,416只股票构成：

全罗素2000指数（1,923只IWM持仓）
全标普小盘600指数（72只仅IJR新增）
iShares微型股（225只IWC新增）
2,196只三个指数外的纳斯达克/纽交所小盘股
构成：3,857家运营公司 + 333只基金 + 226个SPAC，含security_type字段支持适用性分层

数据划分

预测任务（T1, T4）: 按时间顺序70/30划分，分割日期为2024-09-03
估值+生成任务（T2, T3, T5, T6）: 30%公司级留出 = 1,324只股票（随机种子=42），每个提供最新有效快照
房地产任务（T7）: 30%地址级留出（随机，固定种子），含每个物业的时间轴特征

基准方法

数据集附带17个基线方法，涵盖7个家族：

4个朴素基线
2个经典方法
3个深度序列模型
3个零样本时间序列基础模型
2个LLM适配的多任务系统
3个零样本前沿LLM（gpt-oss-120b, gpt-5.1, gemini-3-flash + qwen35）

每个方法通过@register(name=…, family=…, tasks=…)注册，暴露sklearn风格的(fit, predict, save, load)接口。

许可证

数据: CC-BY-4.0（衍生特征+策划面板）
代码: MIT（macrolens/, dataloader/, methods/, eval.py, experiments/）
供应商库: 基于相应许可（MIT、Apache 2.0）

引用

bibtex @inproceedings{macrolens2026, title = {{MacroLens}: A Multi-Task Benchmark for Contextual Financial Reasoning under Macroeconomic Scenarios}, author = {<authors>}, booktitle = {Proceedings of the Annual Conference on Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track}, year = {2026} }

搜集汇总

数据集介绍

构建方式

MacroLens数据集旨在为宏观经济学场景下的情境化金融推理提供多任务学习基准，覆盖2021年1月至2026年3月间美国4,416只小盘与微盘股票。其构建过程融合了多源异构数据：从SEC EDGAR获取295,860份公司文件及4,680万条XBRL标准化会计事实，从FRED与EIA采集53条宏观经济序列，利用yfinance获得OHLCV价格与季度基本面数据，并结合RentCast的房地产估值信息。所有观测值均严格遵循时间点对齐原则，确保每个时刻可见的数据均为该时点前已公开信息。最终形成包含每日、每周、每月三种粒度的面板数据集，并进一步衍生出七个任务子集，涵盖情境化时间序列预测、公开估值、财务报表生成、宏观场景条件收益预测、私有公司估值、自然语言驱动的生成器评估以及房地产估值。

使用方法

MacroLens提供了一套高集成度的调用接口，用户可通过macrolens库快速加载任意任务的训练与测试数据，获取特征矩阵、目标向量及元信息字典。方法注册机制允许用户便捷切换或新增模型，所有模型遵循sklearn风格的fit/predict/predict接口。实验流程支持完整的复现管线，每次运行记录SHA-256校验值、硬件环境与依赖版本，预测结果以pkl格式持久化，便于后续重评估。对于受分发限制的原始数据，数据集附带了重构脚本（如collect_filings.py、collect_news.py），用户通过自有API密钥即可重新获取原始文件并复现基准版本。源代码与衍生数据分别采用MIT与CC-BY-4.0许可，利于学术复用与商业扩展。

背景与挑战

背景概述

MacroLens是一个面向宏观经济场景下金融推理的多任务基准数据集，由匿名研究团队于NeurIPS 2026数据集与基准轨道发布。该数据集聚焦于4,416只美国小盘与微盘股票（2021年至2026年），旨在解决传统金融数据集在宏观经济事件推理、多模态融合以及小盘股估值等领域的空白。通过整合SEC EDGAR的XBRL财务数据、FRED与EIA的宏观经济序列以及RentCast的房地产数据，MacroLens构建了一个严格点-时间对齐的面板，支持七类任务，包括情境时间序列预测、公开估值、财务报表生成、情景条件回报预测、私营企业估值、基于自然语言描述的生成评估以及房地产估值。该数据集对量化金融、资产定价以及宏观经济推理等领域具有重要影响力，为研究多任务学习与跨域迁移提供了标准化的基准。

当前挑战

MacroLens所解决的领域问题包括：1）宏观经济事件对小盘股价格与估值的非线性影响难以建模，现有基准多依赖简单时序模型且忽略横截面关联；2）小盘股信息披露不充分、远见率低，传统估值模型因数据稀疏性而失效；3）多模态信息融合（文本、数值、事件）缺乏统一评测框架。其构建过程中的挑战涉及：1）跨越六个来源的数据清洗与对齐，需处理SEC EDGAR中46.8M条XBRL事实的异构性与时滞；2）小盘股流动性低、数据缺失率高，需设计自适应的插补策略；3）新闻与房地产原始数据因许可限制无法直接分发，需通过派生特征与重采集脚本平衡可复现性与合规性。

常用场景

经典使用场景

MacroLens数据集专为多任务金融推理而设计，其核心使用场景涵盖七个相互关联的任务体系，包括上下文时间序列预测、公开公司估值、财务报表生成、情景条件收益预测、非上市公司估值、基于自然语言描述的生成器评估以及房地产估值。该数据集以4,416只美国小微盘股为研究对象，时间跨度从2021年至2026年，每个样本均配备包含价格、会计事实、宏观经济序列和文件时效性的点时间面板数据。研究者可灵活选择日度、周度或月度粒度，在统一框架下同时训练多个金融预测模型。

解决学术问题

该数据集系统性地解决了金融领域多个长期存在的学术难题，包括小微盘股的估值偏差、宏观经济情景与资产收益的非线性关联、财务信息生成与真实披露的一致性验证，以及跨市场（公开股权、私人企业、房地产）资产定价的异构性挑战。通过引入严格的时间点对齐机制和1,130个宏观经济事件的情景对象，MacroLens使得研究者能够在真实时间约束下评估模型的预测能力，从而突破了传统金融数据集中普遍存在的数据泄露问题，为金融时间序列推理提供了更可靠的基准测试平台。

实际应用

在实际应用中，MacroLens可直接服务于资产管理行业的量化策略构建、风险管理部门的情景压力测试、以及投资银行的企业估值分析。具体而言，其情景条件收益预测任务可帮助投资组合经理评估突发宏观事件（如利率决议、地缘政治冲突）对小微盘股持仓的冲击程度；房地产估值任务则支持地产投资信托公司对区域性物业组合进行自动化定价；而财务信息生成与评估任务能够辅助审计机构检验上市公司披露数据的合理性，从而提升财务监管效率。

数据集最近研究