five

EDGAR|公司财务报告数据集|监管合规数据集

收藏
github2024-03-18 更新2024-05-31 收录
公司财务报告
监管合规
下载链接:
https://github.com/datasets/edgar
下载链接
链接失效反馈
资源简介:
EDGAR数据库包含公开交易的美国公司的监管文件,包括年度和季度报告。所有公司,无论是国内还是国外,都需要通过EDGAR电子提交注册声明、定期报告和其他表格。任何人都可以免费访问和下载这些信息。

The EDGAR database encompasses regulatory filings of publicly traded U.S. companies, including annual and quarterly reports. All companies, whether domestic or foreign, are required to electronically submit registration statements, periodic reports, and other forms through EDGAR. This information is accessible and downloadable by anyone free of charge.
创建时间:
2014-03-04
原始信息汇总

数据集概述

数据集来源

  • 名称: Securities and Exchange Commission (SEC) EDGAR database
  • 描述: 包含公开交易的美国公司的监管文件,包括年度和季度报告。

数据访问

  • 电子提交: 所有公司,无论国内外,均需通过EDGAR电子提交注册声明、定期报告和其他表格。
  • 免费访问: 任何人都可以免费访问和下载这些信息。

数据标识

  • 公司标识: 每个公司都有一个10位数的CIK(Central Index Key)标识符。
  • 文件标识: 每个提交的文件都有一个访问号(Accession Number)。

数据路径格式

  • HTTPS路径格式:
    • 公司数据路径: /edgar/data/{CIK}/{Accession Number}.txt
    • 示例: https://www.sec.gov/Archives/edgar/data/51143/0000051143-13-000007.txt

数据索引

  • 索引类型:
    • 公司索引
    • 表格索引
    • 主索引
    • XBRL索引
  • 索引URL格式:
    • 示例: https://www.sec.gov/Archives/edgar/full-index/{YYYY}/QTR{1-4}/{index-name}.[gz|zip]

CIK查询

  • CIK列表: 所有公司的CIK代码列表可在此处查询: http://www.sec.gov/edgar/NYU/cik.coleft.c
  • CIK查询方法:
    • 通过股票市场代码查询: http://www.sec.gov/cgi-bin/browse-edgar?CIK=ibm&Find=Search&owner=exclude&action=getcompany&output=atom
    • 通过公司名称查询: http://www.sec.gov/edgar/searchedgar/cik.htmL

XBRL数据解析

  • 解析指南: 参考scripts目录下的README文件。
AI搜集汇总
数据集介绍
main_image_url
构建方式
EDGAR数据集由美国证券交易委员会(SEC)构建,旨在收录并公开美国上市公司的监管文件。所有国内外公司均需通过EDGAR系统提交注册声明、定期报告及其他表格,这些信息以电子形式存储,并免费向公众开放。数据集通过CIK(公司标识码)和Accession Number(文件编号)进行组织,确保每份文件具有唯一的访问路径。
特点
EDGAR数据集涵盖了美国上市公司的年度报告、季度报告及其他监管文件,具有高度的完整性和权威性。数据集通过CIK和Accession Number实现精确索引,支持按公司名称、表单类型、CIK编号等多种方式检索。此外,数据集还提供XBRL格式的财务文件,便于自动化处理与分析。
使用方法
用户可通过EDGAR的HTTPS接口访问数据集,根据CIK和Accession Number构建文件路径,直接下载所需文件。数据集还提供多种索引文件,如按公司名称、表单类型、CIK编号等排序的索引,便于批量检索。对于XBRL数据,用户可参考相关脚本进行解析与处理,以提取结构化财务信息。
背景与挑战
背景概述
EDGAR数据集由美国证券交易委员会(SEC)创建,旨在为公众提供上市公司提交的监管文件,包括年度报告和季度报告等。自1996年推出以来,EDGAR已成为金融领域的重要数据源,广泛应用于公司财务分析、市场研究和监管合规等领域。该数据集的核心研究问题在于如何高效地提取和分析海量财务数据,以支持投资者、研究人员和监管机构的决策。EDGAR的开放性和透明度极大地促进了金融市场的透明度和信息对称性,对全球资本市场产生了深远影响。
当前挑战
EDGAR数据集在应用过程中面临多重挑战。首先,数据量庞大且格式多样,尤其是XBRL(可扩展商业报告语言)文件的解析和标准化处理,需要复杂的算法和工具支持。其次,数据的更新频率高,如何实时获取和处理最新数据成为技术难点。此外,数据中包含的财务信息涉及复杂的会计规则和行业标准,如何准确解读和利用这些信息对研究人员提出了高要求。在构建过程中,数据的一致性和完整性也面临挑战,尤其是在跨年度和跨公司的数据整合中,如何确保数据的准确性和可比性是一个亟待解决的问题。
常用场景
经典使用场景
EDGAR数据集广泛应用于金融分析领域,特别是在公司财务报表的深入研究中。研究人员通过访问EDGAR数据库,能够获取美国上市公司的年度报告、季度报告及其他监管文件,从而进行财务健康状况、市场趋势及公司治理结构的分析。这一数据集为金融分析师、学术研究者及政策制定者提供了宝贵的第一手资料。
解决学术问题
EDGAR数据集解决了金融研究中的多个关键问题,如公司财务透明度、市场效率及监管合规性等。通过分析这些公开的财务数据,学者能够评估公司财务报告的真实性,研究市场对财务信息的反应,以及探讨监管政策对公司行为的影响。这些研究不仅增进了对金融市场运作机制的理解,也为政策制定提供了实证依据。
衍生相关工作
EDGAR数据集催生了一系列相关研究和技术工具,如财务数据分析软件、自动化报告生成系统及市场预测模型。这些工具和模型极大地提高了数据处理效率和准确性,为金融市场的参与者提供了更强大的决策支持。此外,基于EDGAR数据的研究成果也推动了金融理论和实践的发展,如市场微观结构理论及公司财务理论的深化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录