five

SEC XBRL Financial Statement Dataset

收藏
github2024-04-15 更新2024-05-31 收录
下载链接:
https://github.com/secdatabase/SEC-XBRL-Financial-Statement-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由SECDatabase.com创建,包含了自2009年1月以来通过XBRL向SEC提交的所有公司年度和季度报告的文本和详细数值信息。数据集已针对AWS大数据生态系统进行了优化,特别适用于Athena和Redshift Spectrum。

This dataset, created by SECDatabase.com, encompasses the textual and detailed numerical information of all corporate annual and quarterly reports submitted to the SEC via XBRL since January 2009. The dataset has been optimized for the AWS big data ecosystem, particularly suitable for Athena and Redshift Spectrum.
创建时间:
2019-10-01
原始信息汇总

SEC XBRL Financial Statement Dataset 概述

数据集基本信息

  • 数据集名称:SEC XBRL Financial Statement Dataset
  • 数据集创建者:SECDatabase.com
  • 数据集内容:包含所有通过XBRL格式向SEC提交的年度和季度财务报告,涵盖时间范围为2009年1月至今。
  • 数据集优化:针对AWS的Athena和Redshift Spectrum进行了优化,以提高在AWS大数据生态系统中的使用效率。

数据集规模

  • 覆盖公司数量:12,600+
  • 报告数量:239,700+
  • 数据点数量:192,500,000+
  • 数据集大小:超过20GB(压缩为Parquet格式)

数据集结构

数据集包含多个表,每个表负责存储不同类型的财务信息:

1. company_submission

  • 内容:包含EDGAR提交的概要信息,部分数据直接来源于EDGAR提交信息,其他数据来源于XBRL提交。
  • 示例查询:查找CHEVRON CORP的所有年度报告。

2. report_presentation_section

  • 内容:包含报告中的所有部分,如收入声明、资产负债表等。
  • 示例查询:查找特定报告的各个部分。

3. data_point

  • 内容:包含自2009年以来的所有数据点和值。
  • 示例查询:查找CHEVRON CORP在特定日期的特定数据点(如流动资产)。

4. report_presentation_line_item

  • 内容:包含报告各部分的行项目序列。
  • 示例查询:查找特定报告的文档和实体信息。

5. segment

  • 内容:提供定义的段信息。
  • 示例查询:查找特定报告的段信息,如利润损失。

数据集访问

数据集可通过Athena和RStudio访问,具体访问方法和步骤在README文件中有详细说明。

搜集汇总
数据集介绍
main_image_url
构建方式
SEC XBRL Financial Statement Dataset由SECDatabase.com构建,涵盖了2009年1月起至2020年9月30日期间所有以XBRL格式提交给美国证券交易委员会(SEC)的年度和季度财务报告。该数据集通过从公司提交的年度和季度报告中提取详细的文本和数值信息,经过优化处理,以适应AWS的大数据生态系统,特别是Athena和Redshift Spectrum。数据集的存储格式为Parquet,压缩后大小超过20GB,包含192.5百万个数据点,覆盖了12.6千家公司和239.7千份报告。
特点
该数据集的主要特点在于其全面性和结构化处理。它不仅包含了所有XBRL格式的财务报告,还通过优化表结构和存储格式,使得数据在AWS的Athena和Redshift Spectrum等大数据平台上能够高效访问和处理。此外,数据集的更新频率较高,确保了数据的时效性。数据集中的每个数据点都经过详细标注,便于用户进行精确查询和分析。
使用方法
用户可以通过AWS的Athena或Redshift Spectrum访问该数据集。首先,用户需要在AWS账户中创建相应的数据库和表结构,然后通过SQL查询语言进行数据检索。对于RStudio用户,Redwall Analytics提供了详细的教程,帮助用户学习如何使用SQL和XBRL进行数据探索。数据集的表结构包括公司提交信息、报告展示部分、数据点、数据点快照等,用户可以根据需要选择不同的表进行查询和分析。
背景与挑战
背景概述
SEC XBRL Financial Statement Dataset由SECDatabase.com创建并定期更新,旨在为社区提供全面的财务报表数据。该数据集涵盖了自2009年1月起至2020年9月30日期间,所有以XBRL格式提交给美国证券交易委员会(SEC)的年度和季度报告。数据集的核心研究问题在于如何有效地提取和分析企业财务报表中的详细信息,尤其是通过XBRL技术标准实现的数据标准化和结构化。该数据集的创建不仅为金融分析和学术研究提供了宝贵的资源,还推动了XBRL技术在财务报告领域的广泛应用。
当前挑战
SEC XBRL Financial Statement Dataset在构建过程中面临了多个挑战。首先,数据集的规模庞大,涵盖了超过12,600家公司和239,700份报告,数据点数量高达1.925亿,这使得数据的管理和存储成为一个巨大的挑战。其次,XBRL格式的多样性和复杂性增加了数据提取和处理的难度,尤其是在不同公司和不同报告之间保持一致性方面。此外,数据集的优化和适配AWS的大数据生态系统(如Athena和Redshift)也带来了技术上的挑战,尤其是在数据查询和分析效率的提升方面。
常用场景
经典使用场景
SEC XBRL Financial Statement Dataset的经典使用场景主要集中在财务分析与合规性审查领域。研究者与分析师可以利用该数据集对公司财务报表进行深入分析,包括但不限于收入、资产、负债等关键财务指标的追踪与比较。此外,该数据集还支持对不同公司、不同行业之间的财务表现进行横向对比,从而为投资决策、风险评估等提供数据支持。
衍生相关工作
基于SEC XBRL Financial Statement Dataset,衍生出了大量相关的经典工作。例如,研究者利用该数据集开发了多种财务分析模型,用于预测公司未来的财务表现;同时,该数据集还为机器学习算法提供了丰富的训练数据,推动了财务数据自动化分析技术的发展。此外,该数据集还被广泛应用于学术研究,涉及财务报告透明度、公司治理等多个领域。
数据集最近研究
最新研究方向
在金融数据分析领域,SEC XBRL财务报表数据集的最新研究方向主要集中在利用XBRL格式的标准化财务数据进行深度分析和预测。研究者们通过该数据集,探索企业财务健康状况的动态变化,尤其是在大数据和云计算技术的支持下,如何更高效地提取和处理这些结构化数据。此外,该数据集还被广泛应用于财务欺诈检测、市场趋势预测以及企业绩效评估等前沿研究中,其影响不仅限于学术界,还对金融监管和投资决策产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作