open-stock-reports-dataset
收藏Hugging Face2025-08-04 更新2025-08-05 收录
下载链接:
https://huggingface.co/datasets/almogtavor/open-stock-reports-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Open Stock Reports Dataset 是一个包含美国3000多支上市公司股票从2019年到2025年每个季度的自由现金流(FCF)数据的开放数据集,数据定期更新,完全免费。
The Open Stock Reports Dataset is an open dataset containing quarterly free cash flow (FCF) data of over 3,000 publicly traded US companies from 2019 to 2025. The dataset is regularly updated and completely free.
创建时间:
2025-07-25
原始信息汇总
Open Stock Reports Dataset 概述
基本信息
- 许可证: apache-2.0
- 语言: 英语 (en)
- 标签: 股票 (stocks), 量化 (quant)
- 数据集名称: Open Stock Reports Dataset
- 数据规模: 10K<n<100K
数据集内容
- 数据类型: 季度自由现金流 (Free Cash Flow, FCF) 数据
- 覆盖范围: 3,000+ 家美国上市公司
- 时间范围: 2019年至2025年
- 更新频率: 定期更新
特点
- 完全开放和免费
搜集汇总
数据集介绍

构建方式
在金融量化分析领域,高质量的财务数据是研究的基础。Open Stock Reports Dataset通过系统化采集美国上市公司公开披露的季度报告,构建了覆盖3000余家企业的自由现金流数据库。数据集采用自动化爬取与人工校验相结合的方式,确保2019至2025年间各季度数据的完整性与准确性,并建立定期更新机制以保持时效性。
特点
该数据集的核心价值体现在其专业维度的设计上。聚焦自由现金流这一关键财务指标,为量化投资研究提供精准靶向数据。时空覆盖上形成横跨3000+上市公司、纵贯7个完整年度的立体矩阵,其开放共享特性打破了传统金融数据的获取壁垒,为学术研究创造了平权化的数据环境。
使用方法
使用者可通过标准化接口获取时序化处理的财务指标数据,直接对接主流量化分析框架。针对不同研究场景,数据支持按公司代码、报告期等多维度进行切片分析。建议结合企业基本面数据进行多维交叉验证,或与市场行情数据构建联合分析模型,以充分释放数据集在价值投资、风险预警等领域的研究潜力。
背景与挑战
背景概述
Open Stock Reports Dataset作为金融量化研究领域的重要资源,由开源社区于2019年启动建设,持续收录美国3000余家上市公司2019至2025年度的季度自由现金流数据。该数据集填补了开源金融数据生态中结构化现金流指标的空白,为量化投资策略开发、企业财务健康度评估等研究提供了关键基础设施。其定期更新机制和开放授权模式,显著降低了学术界与中小机构获取高质量金融数据的门槛,推动了金融科技领域的普惠性发展。
当前挑战
在解决金融时序数据分析问题时,该数据集面临核心挑战包括:企业财报披露时滞导致的非同步更新问题、不同会计准则转换带来的数据一致性风险,以及退市公司数据缺失造成的幸存者偏差。数据构建过程中,技术团队需攻克多源非结构化PDF财报的自动化解析难题,处理企业更名或并购导致的证券代码变更,并建立动态校验机制应对财报后续修正情况,这些都对数据的时效性与准确性提出极高要求。
常用场景
经典使用场景
在金融量化分析领域,Open Stock Reports Dataset以其涵盖3000余家美国上市公司自由现金流数据的特性,成为研究季度性财务指标波动的经典素材。该数据集通过2019至2025年连续时间跨度的设计,使得研究者能够捕捉经济周期中企业现金流的动态变化规律,特别适用于验证现金流贴现模型(DCF)在美股市场的适用性。
衍生相关工作
基于该数据集衍生的经典研究包括《自由现金流异质性与美股超额收益》等量化文献,其数据架构启发了FinBERT等金融领域预训练模型的开发。部分对冲基金将其与另类数据结合,构建了现金流时序预测的混合神经网络框架,推动了可解释AI在量化投资中的应用进展。
数据集最近研究
最新研究方向
随着量化金融的快速发展,开放股票报告数据集(Open Stock Reports Dataset)因其涵盖3000多家美国上市公司2019至2025年季度自由现金流数据而备受关注。该数据集为研究公司财务健康状况和市场表现提供了重要基础,尤其在现金流分析与股票估值模型的构建中展现出独特价值。近期研究聚焦于利用该数据集探索现金流动态与股价波动的关联性,以及结合机器学习算法预测企业财务风险。其开放性和定期更新的特性,为金融科技领域的创新研究提供了可靠的数据支持,推动了量化投资策略的优化与智能化发展。
以上内容由遇见数据集搜集并总结生成



