winterForestStump/10-K_sec_filings

Name: winterForestStump/10-K_sec_filings
Creator: winterForestStump
Published: 2023-10-03 19:39:24
License: 暂无描述

Hugging Face2023-10-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/winterForestStump/10-K_sec_filings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了自1999年以来的93.5K 10K SEC EDGAR filings。数据集中包含了许多解析错误的文件和空行。

This dataset contains 93.5K 10K SEC EDGAR filings dating back to 1999. It includes numerous files with parsing errors and blank lines.

提供机构：

winterForestStump

原始信息汇总

数据集概述

数据集信息

特征列表：
- cik: 数据类型为 int64
- company_name: 数据类型为 string
- filing_date: 数据类型为 timestamp[ns]
- Business: 数据类型为 string
- Risk Factors: 数据类型为 string
- Unresolved Staff Comments: 数据类型为 string
- Properties: 数据类型为 string
- Legal Proceedings: 数据类型为 string
- Mine Safety Disclosures: 数据类型为 string
- Market for Registrant’s Common Equity, Related Stockholder Matters and Issuer Purchases of Equity Securities: 数据类型为 string
- Selected Financial Data: 数据类型为 string
- Management’s Discussion and Analysis of Financial Condition and Results of Operations: 数据类型为 string
- Quantitative and Qualitative Disclosures about Market Risk: 数据类型为 string
- Financial Statements and Supplementary Data: 数据类型为 string
- Changes in and Disagreements with Accountants on Accounting and Financial Disclosure: 数据类型为 string
- Controls and Procedures: 数据类型为 string
- Other Information: 数据类型为 string
- Directors, Executive Officers and Corporate Governance: 数据类型为 string
- Executive Compensation: 数据类型为 string
- Security Ownership of Certain Beneficial Owners and Management and Related Stockholder Matters: 数据类型为 string
- Certain Relationships and Related Transactions, and Director Independence: 数据类型为 string
- Principal Accountant Fees and Services: 数据类型为 string
- Exhibits, Financial Statement Schedules: 数据类型为 string

数据集分割

分割列表：
- 001: 字节数为 1305976147，样本数为 5000
- 002: 字节数为 1547107096，样本数为 5000
- 003: 字节数为 1500950344，样本数为 5000
- 004: 字节数为 938669696，样本数为 3000
- 005: 字节数为 1161187900，样本数为 4000
- 006: 字节数为 937988835，样本数为 3000
- 007: 字节数为 694775532，样本数为 2000
- 008: 字节数为 866183252，样本数为 3000
- 009: 字节数为 705057218，样本数为 3000
- 010: 字节数为 705057218，样本数为 3000
- 011: 字节数为 885667244，样本数为 2000
- 012: 字节数为 329414277，样本数为 2000
- 013: 字节数为 739146986，样本数为 3000
- 014: 字节数为 458266896，样本数为 1000
- 015: 字节数为 710988934，样本数为 2000
- 016: 字节数为 250689742，样本数为 2000
- 017: 字节数为 474864951，样本数为 2000
- 018: 字节数为 615827939，样本数为 2000
- 019: 字节数为 357457451，样本数为 1000
- 020: 字节数为 584057786，样本数为 2000
- 021: 字节数为 141712850，样本数为 2000
- 022: 字节数为 503977366，样本数为 2000
- 023: 字节数为 468353001，样本数为 2000
- 024: 字节数为 450924639，样本数为 1000
- 025: 字节数为 504057453，样本数为 2000
- 026: 字节数为 169593248，样本数为 2000
- 027: 字节数为 464799632，样本数为 2000
- 028: 字节数为 297637001，样本数为 1000
- 029: 字节数为 368760540，样本数为 1000
- 030: 字节数为 319606303，样本数为 1000
- 031: 字节数为 394028378，样本数为 2000
- 032: 字节数为 343965348，样本数为 2000
- 033: 字节数为 522452994，样本数为 1999
- 034: 字节数为 509087440，样本数为 1000
- 035: 字节数为 509775862，样本数为 1001
- 036: 字节数为 437503604，样本数为 1000
- 037: 字节数为 610792518，样本数为 2000
- 038: 字节数为 581885486，样本数为 2000
- 039: 字节数为 350277811，样本数为 1000
- 040: 字节数为 627141247，样本数为 1500
- 041: 字节数为 305018992，样本数为 700
- 042: 字节数为 555710158，样本数为 600
- 043: 字节数为 593433327，样本数为 500
- 044: 字节数为 352017311，样本数为 700
- 045: 字节数为 342614047，样本数为 1000
- 046: 字节数为 323563296，样本数为 1000
- 047: 字节数为 236981244，样本数为 1000
- 048: 字节数为 622649279，样本数为 1000
- 049: 字节数为 358151664，样本数为 1000
- 050: 字节数为 661144363，样本数为 1000
- 051: 字节数为 421673110，样本数为 400
- 052: 字节数为 317359748，样本数为 100

数据集配置

配置名称：default
数据文件路径：
- 001: data/001-*
- 002: data/002-*
- 003: data/003-*
- 004: data/004-*
- 005: data/005-*
- 006: data/006-*
- 007: data/007-*
- 008: data/008-*
- 009: data/009-*
- 010: data/010-*
- 011: data/011-*
- 012: data/012-*
- 013: data/013-*
- 014: data/014-*
- 015: data/015-*
- 016: data/016-*
- 017: data/017-*
- 018: data/018-*
- 019: data/019-*
- 020: data/020-*
- 021: data/021-*
- 022: data/022-*
- 023: data/023-*
- 024: data/024-*
- 025: data/025-*
- 026: data/026-*
- 027: data/027-*
- 028: data/028-*
- 029: data/029-*
- 030: data/030-*
- 031: data/031-*
- 032: data/032-*
- 033: data/033-*
- 034: data/034-*
- 035: data/035-*
- 036: data/036-*
- 037: data/037-*
- 038: data/038-*
- 039: data/039-*
- 040: data/040-*
- 041: data/041-*
- 042: data/042-*
- 043: data/043-*
- 044: data/044-*
- 045: data/045-*
- 046: data/046-*
- 047: data/047-*
- 048: data/048-*
- 049: data/049-*
- 050: data/050-*
- 051: data/051-*
- 052: data/052-*

数据集大小

下载大小：13361256647 字节
数据集大小：29477068619 字节

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，10-K_sec_filings数据集通过系统化采集美国证券交易委员会（SEC）EDGAR数据库中的10-K年度报告构建而成。该数据集涵盖了自1999年以来的93,500份企业年报，采用结构化解析技术将每份报告拆解为22个标准字段，包括企业基本信息、业务描述、风险因素、管理层讨论等核心章节。数据采集过程中保留了原始文档的时序特征和公司标识信息，通过自动化流程实现了大规模金融文档的标准化处理，为量化金融研究提供了原始文本素材。

特点

作为企业信息披露研究的重要语料库，该数据集呈现出多维度的结构特征。其核心价值在于完整保留了SEC规定的10-K报告标准章节体系，涵盖从公司治理到财务数据的全维度信息。数据规模达到29.5GB的文本容量，时间跨度超过二十年，能够支持纵向比较研究。值得注意的是数据集包含部分解析异常和空值记录，这反映了真实世界金融文档处理的复杂性，为自然语言处理模型提供了具有现实挑战性的训练环境。各章节文本长度差异显著，体现了不同信息披露要求的表述特征。

使用方法

针对金融自然语言处理任务，该数据集可通过HuggingFace标准接口进行加载和预处理。研究人员可采用分片读取策略处理大规模文本，利用CIK编码和报告日期实现企业维度的时序分析。典型应用场景包括风险因素文本挖掘、管理层语调分析、财务信息抽取等任务。使用前建议进行数据质量校验，针对解析异常记录设计相应的清洗或标注策略。数据集支持批量处理与流式读取，可与预训练语言模型结合构建领域特定的分析管道。

背景与挑战

背景概述

在金融信息学与自然语言处理交叉领域，10-K表格作为美国上市公司向证券交易委员会提交的年度报告，蕴含了企业运营、财务表现及风险披露等关键信息。数据集“10-K_sec_filings”由研究者winterForestStump构建并发布于HuggingFace平台，其核心研究问题聚焦于如何系统化整合自1999年以来的约9.35万份10-K文件，以支持自动化财务分析、风险预测及公司治理研究。该数据集的创建为量化金融与文档智能领域提供了大规模、结构化的文本资源，推动了基于机器学习的企业信息披露深度解析，对提升市场透明度与决策效率具有显著影响力。

当前挑战

该数据集旨在解决金融文档理解中的复杂挑战，包括从非结构化文本中提取关键业务指标、识别风险因素以及进行跨时间序列的财务比较。然而，构建过程面临多重困难：原始EDGAR数据库中的文档格式异构性导致解析错误频发，部分文件存在数据缺失或空行问题；同时，海量数据（约294GB）的清洗与标准化需要高效的处理流程以确保质量。此外，如何准确对齐不同公司的报告章节（如“管理层讨论与分析”或“法律诉讼”），并处理随时间变化的披露规范，构成了持续的技术障碍。

常用场景

经典使用场景

在金融文本分析领域，10-K年报作为上市公司披露核心经营与财务信息的关键载体，其结构化文本为自然语言处理技术提供了丰富的语料资源。该数据集经典应用于训练和评估金融领域专用的大语言模型，通过解析年报中业务描述、风险因素、管理层讨论等章节，模型能够学习专业术语的语义关联与上下文逻辑，进而实现自动化财务文档摘要生成、关键信息抽取等任务，为量化金融研究奠定数据基础。

衍生相关工作

围绕该数据集衍生的经典研究形成了金融自然语言处理的重要分支。早期工作如Loughran-McDonald金融情感词典的构建便基于类似年报语料，后续研究则扩展到利用深度学习进行风险因素自动分类。近年来，基于Transformer架构的预训练模型如FinBERT在该数据集上微调后，在财务报表项目关系抽取任务中取得突破，而多模态研究则尝试将文本数据与财务报表数值相结合，构建更全面的企业画像分析体系。

数据集最近研究