10-K Management Discussion and Analysis

github2025-12-23 更新2026-01-05 收录

下载链接：

https://github.com/john-friedman/Every-10-K-MDA-01-01-1993-12-21-2025.

下载链接

链接失效反馈

官方服务：

资源简介：

从1993年至2025年提取的每份10-K管理讨论与分析（MDA）数据集，使用datamule-python工具提取。数据集包括压缩后的parquet文件，可通过zstandard解压后读取。

A dataset comprising all extracted Management's Discussion and Analysis (MDA) sections from 10-K filings between 1993 and 2025, which was extracted using the datamule-python tool. The dataset contains compressed Parquet files that can be read after decompression via zstandard.

创建时间：

2025-12-22

原始信息汇总

数据集概述

数据集名称

10-K Management Discussion and Analysis

数据来源与时间范围

数据来源：美国证券交易委员会（SEC）的10-K年报。
时间范围：从1993年12月21日到2025年12月21日。

数据集内容与文件说明

数据集包含通过工具提取的每一份10-K年报中的“管理层讨论与分析”（MDA）部分。

主要文件

batches.py
- 功能：用于下载10-K年报文件。
compress.py
- 功能：对Parquet文件进行额外的Zstandard压缩，可将文件大小减少约50%。
batches_mda_compressed/ 目录
- 内容：存储按批次处理的10-K MDA数据文件。
- 使用说明：需先使用Zstandard解压缩，然后使用read_parquet函数读取。
stats.json
- 内容：关于数据处理过程的统计信息。
- 备注：文本处理过程未进行优化，因此耗时较长。
mda_no_text_sorted.parquet
- 内容：包含以下字段的数据文件：
  - accession（登记号）
  - year（年份）
  - negative ratio（负面情绪比率，使用Loughran McDonald词典计算）。

数据处理与工具

提取工具：使用 datamule-python 进行数据提取。
未来更新：计划将每日更新的SEC文件（包括10-K、10-Q、8-K等）存储于网站 https://datamule.xyz/。

备注

文件上传曾因GitHub存储空间问题略有延迟。
数据集存储于GitHub，作者对此表示感谢。

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，10-K Management Discussion and Analysis 数据集的构建体现了大规模文档提取与处理的系统性方法。该数据集通过 datamule-python 工具，从美国证券交易委员会（SEC）的公开文件中，自动提取了自1993年至2025年12月21日期间的所有10-K年报中的管理层讨论与分析（MDA）部分。原始文本经过批量下载后，采用高效的压缩技术，如 zstandard 进行压缩处理，显著减少了存储空间占用，同时以 parquet 格式保存，确保了数据的结构化与可访问性。整个流程涵盖了从数据采集到压缩优化的完整链条，为后续分析提供了可靠的基础。

使用方法

使用该数据集时，用户需首先解压缩存储在 batches_mda_compressed 目录中的文件，利用 zstandard 工具进行解压，随后通过 read_parquet 方法读取数据。对于初步探索，可参考 mda_no_text_sorted.parquet 文件，其中包含了登录号、年份及负面情绪比率等关键字段，便于快速筛选和分析。数据集适用于自然语言处理、金融情感分析、公司治理研究等多个领域，用户可结合自身需求，提取文本内容进行主题建模、风险预警或市场预测。未来，数据集作者计划通过网站提供每日更新，建议关注此渠道以获取最新数据。

背景与挑战

背景概述

10-K Management Discussion and Analysis（MDA）数据集聚焦于公司年度报告（10-K）中的管理层讨论与分析部分，该部分由美国证券交易委员会（SEC）强制要求披露，旨在阐述公司财务状况、经营成果及未来展望。该数据集由独立研究者或团队基于datamule-python工具构建，覆盖了自1993年12月至2025年12月21日期间的文本数据，核心研究问题在于通过大规模自然语言处理技术，分析管理层披露信息的语义特征、情感倾向及其与市场表现的关联，为金融文本挖掘、公司治理和投资决策研究提供了重要基础。其影响力延伸至会计学、金融学和计算社会科学领域，促进了自动化财务分析与风险预测模型的演进。

当前挑战

该数据集所解决的领域问题在于自动化解析10-K报告中管理层讨论与分析的文本内容，以支持情感分析、风险识别和预测建模。领域挑战包括文本的语义复杂性，如专业术语、模糊表述和前瞻性声明的解读，以及如何准确量化管理层语调对市场反应的因果影响。构建过程中的挑战涉及海量SEC文件的爬取与处理，需克服数据存储与压缩的技术瓶颈，例如使用zstandard压缩以减少50%的文件体积，同时文本处理流程未优化导致效率低下，且免费存储空间的限制迫使研究者转向自有平台进行日常更新，这反映了大规模金融数据集维护中的资源与可持续性难题。

常用场景

经典使用场景

在金融文本分析领域，10-K Management Discussion and Analysis数据集为研究人员提供了丰富的结构化文本资源。该数据集最经典的使用场景在于支持自然语言处理技术在财务文档中的应用，例如通过情感分析模型评估管理层讨论与分析部分的情感倾向，从而量化公司披露信息的乐观或悲观程度。研究人员常利用该数据集训练机器学习算法，以自动提取关键财务风险、战略展望等语义特征，为后续的量化金融研究奠定基础。

解决学术问题

该数据集有效解决了金融学术界长期面临的文本数据获取与标准化难题。通过系统化提取1993年至2025年间的10-K报告管理层讨论与分析部分，它为研究公司信息披露质量、市场反应与文本特征关联性提供了可靠实证基础。其意义在于使大规模文本分析成为可能，推动了会计透明度、风险预警等领域的研究进展，显著提升了财务文本挖掘的学术影响力。

实际应用

在实际应用层面，该数据集被投资机构与风险管理部门广泛用于构建自动化分析工具。基于数据集训练的模型能够实时监测上市公司披露文件的情感变化，辅助投资者识别潜在财务风险或战略转向。此外，监管机构亦可借助此类工具进行大规模合规审查，提升对财务信息披露一致性与真实性的监督效率。

数据集最近研究