five

winterForestStump/10-K_sec_filings

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/winterForestStump/10-K_sec_filings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了自1999年以来的93.5K 10K SEC EDGAR filings。数据集中包含了许多解析错误的文件和空行。

This dataset contains 93.5K 10K SEC EDGAR filings dating back to 1999. It includes numerous files with parsing errors and blank lines.
提供机构:
winterForestStump
原始信息汇总

数据集概述

数据集信息

  • 特征列表
    • cik: 数据类型为 int64
    • company_name: 数据类型为 string
    • filing_date: 数据类型为 timestamp[ns]
    • Business: 数据类型为 string
    • Risk Factors: 数据类型为 string
    • Unresolved Staff Comments: 数据类型为 string
    • Properties: 数据类型为 string
    • Legal Proceedings: 数据类型为 string
    • Mine Safety Disclosures: 数据类型为 string
    • Market for Registrant’s Common Equity, Related Stockholder Matters and Issuer Purchases of Equity Securities: 数据类型为 string
    • Selected Financial Data: 数据类型为 string
    • Management’s Discussion and Analysis of Financial Condition and Results of Operations: 数据类型为 string
    • Quantitative and Qualitative Disclosures about Market Risk: 数据类型为 string
    • Financial Statements and Supplementary Data: 数据类型为 string
    • Changes in and Disagreements with Accountants on Accounting and Financial Disclosure: 数据类型为 string
    • Controls and Procedures: 数据类型为 string
    • Other Information: 数据类型为 string
    • Directors, Executive Officers and Corporate Governance: 数据类型为 string
    • Executive Compensation: 数据类型为 string
    • Security Ownership of Certain Beneficial Owners and Management and Related Stockholder Matters: 数据类型为 string
    • Certain Relationships and Related Transactions, and Director Independence: 数据类型为 string
    • Principal Accountant Fees and Services: 数据类型为 string
    • Exhibits, Financial Statement Schedules: 数据类型为 string

数据集分割

  • 分割列表
    • 001: 字节数为 1305976147,样本数为 5000
    • 002: 字节数为 1547107096,样本数为 5000
    • 003: 字节数为 1500950344,样本数为 5000
    • 004: 字节数为 938669696,样本数为 3000
    • 005: 字节数为 1161187900,样本数为 4000
    • 006: 字节数为 937988835,样本数为 3000
    • 007: 字节数为 694775532,样本数为 2000
    • 008: 字节数为 866183252,样本数为 3000
    • 009: 字节数为 705057218,样本数为 3000
    • 010: 字节数为 705057218,样本数为 3000
    • 011: 字节数为 885667244,样本数为 2000
    • 012: 字节数为 329414277,样本数为 2000
    • 013: 字节数为 739146986,样本数为 3000
    • 014: 字节数为 458266896,样本数为 1000
    • 015: 字节数为 710988934,样本数为 2000
    • 016: 字节数为 250689742,样本数为 2000
    • 017: 字节数为 474864951,样本数为 2000
    • 018: 字节数为 615827939,样本数为 2000
    • 019: 字节数为 357457451,样本数为 1000
    • 020: 字节数为 584057786,样本数为 2000
    • 021: 字节数为 141712850,样本数为 2000
    • 022: 字节数为 503977366,样本数为 2000
    • 023: 字节数为 468353001,样本数为 2000
    • 024: 字节数为 450924639,样本数为 1000
    • 025: 字节数为 504057453,样本数为 2000
    • 026: 字节数为 169593248,样本数为 2000
    • 027: 字节数为 464799632,样本数为 2000
    • 028: 字节数为 297637001,样本数为 1000
    • 029: 字节数为 368760540,样本数为 1000
    • 030: 字节数为 319606303,样本数为 1000
    • 031: 字节数为 394028378,样本数为 2000
    • 032: 字节数为 343965348,样本数为 2000
    • 033: 字节数为 522452994,样本数为 1999
    • 034: 字节数为 509087440,样本数为 1000
    • 035: 字节数为 509775862,样本数为 1001
    • 036: 字节数为 437503604,样本数为 1000
    • 037: 字节数为 610792518,样本数为 2000
    • 038: 字节数为 581885486,样本数为 2000
    • 039: 字节数为 350277811,样本数为 1000
    • 040: 字节数为 627141247,样本数为 1500
    • 041: 字节数为 305018992,样本数为 700
    • 042: 字节数为 555710158,样本数为 600
    • 043: 字节数为 593433327,样本数为 500
    • 044: 字节数为 352017311,样本数为 700
    • 045: 字节数为 342614047,样本数为 1000
    • 046: 字节数为 323563296,样本数为 1000
    • 047: 字节数为 236981244,样本数为 1000
    • 048: 字节数为 622649279,样本数为 1000
    • 049: 字节数为 358151664,样本数为 1000
    • 050: 字节数为 661144363,样本数为 1000
    • 051: 字节数为 421673110,样本数为 400
    • 052: 字节数为 317359748,样本数为 100

数据集配置

  • 配置名称default
  • 数据文件路径
    • 001: data/001-*
    • 002: data/002-*
    • 003: data/003-*
    • 004: data/004-*
    • 005: data/005-*
    • 006: data/006-*
    • 007: data/007-*
    • 008: data/008-*
    • 009: data/009-*
    • 010: data/010-*
    • 011: data/011-*
    • 012: data/012-*
    • 013: data/013-*
    • 014: data/014-*
    • 015: data/015-*
    • 016: data/016-*
    • 017: data/017-*
    • 018: data/018-*
    • 019: data/019-*
    • 020: data/020-*
    • 021: data/021-*
    • 022: data/022-*
    • 023: data/023-*
    • 024: data/024-*
    • 025: data/025-*
    • 026: data/026-*
    • 027: data/027-*
    • 028: data/028-*
    • 029: data/029-*
    • 030: data/030-*
    • 031: data/031-*
    • 032: data/032-*
    • 033: data/033-*
    • 034: data/034-*
    • 035: data/035-*
    • 036: data/036-*
    • 037: data/037-*
    • 038: data/038-*
    • 039: data/039-*
    • 040: data/040-*
    • 041: data/041-*
    • 042: data/042-*
    • 043: data/043-*
    • 044: data/044-*
    • 045: data/045-*
    • 046: data/046-*
    • 047: data/047-*
    • 048: data/048-*
    • 049: data/049-*
    • 050: data/050-*
    • 051: data/051-*
    • 052: data/052-*

数据集大小

  • 下载大小13361256647 字节
  • 数据集大小29477068619 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在金融文本分析领域,10-K_sec_filings数据集通过系统化采集美国证券交易委员会(SEC)EDGAR数据库中的10-K年度报告构建而成。该数据集涵盖了自1999年以来的93,500份企业年报,采用结构化解析技术将每份报告拆解为22个标准字段,包括企业基本信息、业务描述、风险因素、管理层讨论等核心章节。数据采集过程中保留了原始文档的时序特征和公司标识信息,通过自动化流程实现了大规模金融文档的标准化处理,为量化金融研究提供了原始文本素材。
特点
作为企业信息披露研究的重要语料库,该数据集呈现出多维度的结构特征。其核心价值在于完整保留了SEC规定的10-K报告标准章节体系,涵盖从公司治理到财务数据的全维度信息。数据规模达到29.5GB的文本容量,时间跨度超过二十年,能够支持纵向比较研究。值得注意的是数据集包含部分解析异常和空值记录,这反映了真实世界金融文档处理的复杂性,为自然语言处理模型提供了具有现实挑战性的训练环境。各章节文本长度差异显著,体现了不同信息披露要求的表述特征。
使用方法
针对金融自然语言处理任务,该数据集可通过HuggingFace标准接口进行加载和预处理。研究人员可采用分片读取策略处理大规模文本,利用CIK编码和报告日期实现企业维度的时序分析。典型应用场景包括风险因素文本挖掘、管理层语调分析、财务信息抽取等任务。使用前建议进行数据质量校验,针对解析异常记录设计相应的清洗或标注策略。数据集支持批量处理与流式读取,可与预训练语言模型结合构建领域特定的分析管道。
背景与挑战
背景概述
在金融信息学与自然语言处理交叉领域,10-K表格作为美国上市公司向证券交易委员会提交的年度报告,蕴含了企业运营、财务表现及风险披露等关键信息。数据集“10-K_sec_filings”由研究者winterForestStump构建并发布于HuggingFace平台,其核心研究问题聚焦于如何系统化整合自1999年以来的约9.35万份10-K文件,以支持自动化财务分析、风险预测及公司治理研究。该数据集的创建为量化金融与文档智能领域提供了大规模、结构化的文本资源,推动了基于机器学习的企业信息披露深度解析,对提升市场透明度与决策效率具有显著影响力。
当前挑战
该数据集旨在解决金融文档理解中的复杂挑战,包括从非结构化文本中提取关键业务指标、识别风险因素以及进行跨时间序列的财务比较。然而,构建过程面临多重困难:原始EDGAR数据库中的文档格式异构性导致解析错误频发,部分文件存在数据缺失或空行问题;同时,海量数据(约294GB)的清洗与标准化需要高效的处理流程以确保质量。此外,如何准确对齐不同公司的报告章节(如“管理层讨论与分析”或“法律诉讼”),并处理随时间变化的披露规范,构成了持续的技术障碍。
常用场景
经典使用场景
在金融文本分析领域,10-K年报作为上市公司披露核心经营与财务信息的关键载体,其结构化文本为自然语言处理技术提供了丰富的语料资源。该数据集经典应用于训练和评估金融领域专用的大语言模型,通过解析年报中业务描述、风险因素、管理层讨论等章节,模型能够学习专业术语的语义关联与上下文逻辑,进而实现自动化财务文档摘要生成、关键信息抽取等任务,为量化金融研究奠定数据基础。
衍生相关工作
围绕该数据集衍生的经典研究形成了金融自然语言处理的重要分支。早期工作如Loughran-McDonald金融情感词典的构建便基于类似年报语料,后续研究则扩展到利用深度学习进行风险因素自动分类。近年来,基于Transformer架构的预训练模型如FinBERT在该数据集上微调后,在财务报表项目关系抽取任务中取得突破,而多模态研究则尝试将文本数据与财务报表数值相结合,构建更全面的企业画像分析体系。
数据集最近研究
最新研究方向
在金融文本分析领域,10-K报告作为上市公司年度财务披露的核心文件,蕴含丰富的结构化与非结构化信息。当前研究前沿聚焦于利用自然语言处理技术,深度挖掘报告中“管理层讨论与分析”、“风险因素”等文本字段,以预测企业财务风险与股价波动。结合大语言模型的发展,学者们正探索自动化提取关键审计事项、识别环境社会治理(ESG)相关表述,以及检测信息披露中的模糊性与乐观倾向。这些研究不仅响应了监管科技(RegTech)的热潮,也为投资者与分析师提供了更高效的决策支持工具,推动了金融信息处理的智能化转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作