PleIAs/SEC
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/SEC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1993年至2024年的SEC年度报告(Form 10-K),提供了上市公司财务和业务信息的全面覆盖。报告以Parquet格式存储,确保高效存储和快速访问。该数据集通过EDGAR-Crawler工具包从EDGAR数据库中提取和处理SEC文件,并整合了1993年至2020年的现有数据集。数据集包含详细的字段,如文件名、唯一标识符、年份、公司CIK、文件全文、字数统计和字符数统计。数据集适用于学术研究、财务分析和NLP应用。
This dataset comprises SEC annual reports (Form 10-K) for the years 1993 to 2024, providing comprehensive coverage of publicly traded companies financial and business information. The reports are stored in Parquet format, ensuring efficient storage and quick access. This dataset was meticulously compiled using the EDGAR-Crawler toolkit, which facilitates the extraction and processing of SEC filings from the EDGAR database. Each Parquet file contains detailed fields that provide a comprehensive view of each report, including filename, unique identifier, year, Central Index Key, full text, word count, and character count. The dataset is invaluable for academic research, financial analysis, and NLP applications.
提供机构:
PleIAs
原始信息汇总
SEC Annual Reports (Form 10-K) 1993-2024
数据集概述
该数据集包含1993年至2024年的SEC年度报告(Form 10-K),涵盖了上市公司财务和业务信息的全面覆盖。报告以Parquet格式存储,确保高效存储和快速访问。该数据集使用EDGAR-Crawler工具包精心编译,该工具包有助于从EDGAR数据库中提取和处理SEC文件。
数据集结构
数据文件
数据集按年份组织成单独的Parquet文件,便于导航和使用:
- 1993.parquet
- 1994.parquet
- 1995.parquet
- 1996.parquet
- 1997.parquet
- 1998.parquet
- 1999.parquet
- 2000.parquet
- 2001.parquet
- 2002.parquet
- 2003.parquet
- 2004.parquet
- 2005.parquet
- 2006.parquet
- 2007.parquet
- 2008.parquet
- 2009.parquet
- 2010.parquet
- 2011.parquet
- 2012.parquet
- 2013.parquet
- 2014.parquet
- 2015.parquet
- 2016.parquet
- 2017.parquet
- 2018.parquet
- 2019.parquet
- 2020.parquet
- 2021.parquet
- 2022.parquet
- 2023.parquet
- 2024.parquet
摘要统计
这些年间,数据集总共包含7,245,966,226个单词,分布在245,211个条目中,平均每个条目包含34,324.36个单词。值得注意的是,有4,043个文档包含零个单词,反映了偶尔会出现没有文本内容的文件。
包含的字段
每个Parquet文件包含详细的字段,提供每个报告的全面视图:
filename:文件名(例如,"1089297_21929025_2004.htm")。id:文件的唯一标识符,格式为"cik_year"(例如,"1089297_2021")。year:文件的年份。cik:分配给公司的中央索引键(例如,"1089297")。text:文件的全文。word_count:文件文本中的单词数。character_count:文件文本中的字符数。
数据来源和方法论
数据来源
- 2020年之前:数据从https://zenodo.org/records/5528490收集。
- 2021年至2024年:数据使用EDGAR-Crawler工具包收集,该工具包有助于从EDGAR数据库中提取和处理SEC文件。
方法论
- 爬取:使用EDGAR-Crawler工具包下载每个指定年份的10-K文件。
- 提取和清理:提取并清理文件,确保数据集结构化和清洁。
- 整合:该数据集与1993年至2020年的现有数据集无缝整合,提供连续且全面的SEC年度报告记录,便于广泛的研究和分析。
使用案例
该数据集适用于多种应用,包括但不限于:
- 学术研究:经济学、金融和商业管理领域的研究人员可以利用该数据集进行详细和广泛的研究,通过强大的财务数据增强研究的广度和深度。
- 财务分析:金融专业人士可以利用详细的报告来加强财务分析、战略规划和决策过程,确保基于数据的洞察力。
- NLP应用:该数据集中的结构化文本数据支持自然语言处理(NLP)研究和应用,有助于开发先进的模型和工具,用于财务文档分析等。
数据集统计
- 总单词数:7,245,966,226
- 总条目数:245,211
- 每个条目的平均单词数:34,324.36
- 零单词文档数:4,043
数据集引用
如果您在研究中使用此数据集,请按如下方式引用:
@dataset{SecAnnual, title={SEC Annual Reports (Form 10-K) 1993-2024}, author={Pleias}, year={2024}, description={Collection of SEC annual reports (Form 10-K) for the years 1993 to 2024} }
搜集汇总
数据集介绍

构建方式
PleIAs/SEC数据集的构建,是通过EDGAR-Crawler工具包对EDGAR数据库中的10-K年度报告进行精确爬取和整理而形成的。该数据集涵盖了从1993年至2024年的美国证券交易委员会(SEC)公开上市公司的财务和业务信息,采用Parquet格式存储,确保了数据的高效存储和快速访问。
使用方法
用户可以通过直接访问每个年份对应的Parquet文件来使用该数据集,便于导航和利用。数据集适用于学术研究、金融分析和自然语言处理等领域,研究者可以借助这一数据集进行深入的经济学、金融学和商业管理研究,或用于加强金融分析和战略规划,以及开发高级NLP模型和工具。
背景与挑战
背景概述
在金融研究领域,SEC年度报告(Form 10-K)作为一种重要的公开财务文件,对于理解企业财务状况和业务活动至关重要。PleIAs/SEC数据集汇集了从1993年至2024年的SEC年度报告,由Pleias机构精心整理,采用EDGAR-Crawler工具包从EDGAR数据库中提取文件。该数据集不仅为研究者提供了丰富的财务数据资源,而且对于自然语言处理技术在金融文档分析中的应用具有重要意义。
当前挑战
该数据集在构建过程中面临了多方面的挑战。首先,确保数据的完整性和准确性需要高度精确的爬取和清理过程。其次,由于数据量庞大,整合不同年份的数据文件并保持结构一致性是一项复杂的任务。此外,数据集在应用层面的挑战包括如何有效利用这些财务报告进行深入的学术研究和金融分析,以及如何通过自然语言处理技术提取和解析报告中的关键信息。
常用场景
经典使用场景
在文本生成任务领域,PleIAs/SEC数据集因其涵盖的详尽财务报告文本,成为构建和训练金融文档分析模型的重要资源。研究者们通常利用该数据集进行词汇建模、文本分类和情感分析等任务,以期为金融领域的自然语言处理提供强有力的支撑。
解决学术问题
该数据集解决了金融文本分析中数据稀缺和异构性问题,为学术研究提供了统一格式的、结构化的、大规模的文本数据。它使得研究者能够对上市公司的财务健康状况进行深入分析,从而促进了金融预测、风险评估等领域的学术探讨。
实际应用
在现实应用中,PleIAs/SEC数据集被广泛应用于金融行业,如投资银行、咨询公司和监管机构等,用于进行市场趋势分析、公司绩效评估以及合规性检查等。此外,该数据集也为金融科技产品的开发提供了数据基础。
数据集最近研究
最新研究方向
在金融信息分析领域,PleIAs/SEC数据集以其全面覆盖1993至2024年间的SEC年度报告(Form 10-K)而显得尤为重要。近期研究集中于利用该数据集进行深度学习模型的训练,以实现对公司财务健康状况的自动预测和风险评估。学者们正探索自然语言处理技术,从报告中提取关键信息,进而为投资决策提供数据支持。此外,该数据集也为市场趋势分析、企业竞争力评估等研究提供了坚实基础,进一步推动了金融科技的发展与应用。
以上内容由遇见数据集搜集并总结生成



