five

sp500_dataset_earnings_sec_annotations_continued

收藏
Hugging Face2026-01-11 更新2026-01-12 收录
下载链接:
https://huggingface.co/datasets/hfmlsoc/sp500_dataset_earnings_sec_annotations_continued
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多家公司的财务信息,主要特征包括公司标识信息(股票代码、证券名称、行业分类)、中央索引键(CIK)编号,以及2022年至2025年各季度的收益数据和相关财务声明。财务声明部分包含详细的分析内容、上下文信息、具体声明和主题分类。数据集共包含503个训练样本,总大小约为340MB。

This dataset comprises financial information for multiple companies. Its key features include company identification details (stock code, security name, industry classification), Central Index Key (CIK) number, quarterly earnings data spanning 2022 to 2025, and relevant financial statements. The financial statement section contains detailed analysis, contextual information, specific statements, and topic categorization. In total, the dataset includes 503 training samples with an overall size of approximately 340 MB.
创建时间:
2026-01-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: sp500_dataset_earnings_sec_annotations_continued
  • 数据集地址: https://huggingface.co/datasets/hfmlsoc/sp500_dataset_earnings_sec_annotations_continued
  • 数据量: 503 个样本
  • 数据集大小: 340,905,205 字节
  • 下载大小: 176,611,652 字节
  • 数据分割: 包含一个名为 "train" 的分割

数据特征

数据集包含以下特征字段:

公司基本信息

  • Symbol: 公司股票代码 (字符串类型)
  • Security: 公司证券名称 (字符串类型)
  • GICS Sector: 全球行业分类标准 (GICS) 板块 (字符串类型)
  • GICS Sub-Industry: 全球行业分类标准 (GICS) 子行业 (字符串类型)
  • CIK: 中央索引键 (整数类型)

季度收益数据

  • 2022_earnings_q1: 2022年第一季度收益 (字符串类型)
  • 2022_earnings_q2: 2022年第二季度收益 (字符串类型)
  • 2022_earnings_q3: 2022年第三季度收益 (字符串类型)
  • 2022_earnings_q4: 2022年第四季度收益 (字符串类型)
  • 2023_earnings_q1: 2023年第一季度收益 (字符串类型)
  • 2023_earnings_q2: 2023年第二季度收益 (字符串类型)
  • 2023_earnings_q3: 2023年第三季度收益 (字符串类型)
  • 2023_earnings_q4: 2023年第四季度收益 (字符串类型)
  • 2024_earnings_q1: 2024年第一季度收益 (字符串类型)
  • 2024_earnings_q2: 2024年第二季度收益 (字符串类型)
  • 2024_earnings_q3: 2024年第三季度收益 (字符串类型)
  • 2024_earnings_q4: 2024年第四季度收益 (字符串类型)
  • 2025_earnings_q1: 2025年第一季度收益 (字符串类型)

收益报告声明数据

每个季度收益报告声明包含一个列表结构,列表内包含以下字段:

2022年季度声明

  • 2022_earnings_q1_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2022_earnings_q2_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2022_earnings_q3_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2022_earnings_q4_statements: 包含 analysis, context, statement, topic (均为字符串类型)

2023年季度声明

  • 2023_earnings_q1_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2023_earnings_q2_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2023_earnings_q3_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2023_earnings_q4_statements: 包含 analysis, context, source, statement, topic (均为字符串类型)

2024年季度声明

  • 2024_earnings_q1_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2024_earnings_q2_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2024_earnings_q3_statements: 包含 analysis, context, statement, topic (均为字符串类型)
  • 2024_earnings_q4_statements: 包含 analysis, context, statement, topic (均为字符串类型)

2025年季度声明

  • 2025_earnings_q1_statements: 包含 analysis, context, statement, topic (均为字符串类型)

数据配置

  • 配置名称: default
  • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在金融文本分析领域,数据集sp500_dataset_earnings_sec_annotations_continued的构建体现了对标准化财务信息披露的深度整合。该数据集以标准普尔500指数成分股为基准,系统收集了2022年至2025年间各公司按季度发布的收益报告文本。通过结构化提取美国证券交易委员会(SEC)文件中的关键陈述,每条记录均包含公司标识、行业分类及详细的收益声明,并辅以分析、上下文和主题标注,确保了数据来源的权威性与时序连续性。
特点
该数据集的核心特点在于其多维度的注释体系与精细的时序覆盖。每个收益声明不仅包含原始文本,还集成了分析解读、上下文背景及主题分类,形成层次化的语义结构。数据覆盖了多个连续财年季度,允许研究者追踪同一公司在不同时期的财务叙事演变。同时,数据集整合了GICS行业分类与公司标识信息,为跨行业比较与纵向分析提供了坚实基础,凸显了其在金融自然语言处理任务中的实用价值。
使用方法
针对金融文本挖掘与预测建模任务,该数据集支持多种分析方法。研究者可基于收益声明及其注释,训练模型进行情感分析、主题聚类或风险预测。时序字段便于构建面板数据,用于研究财务披露的市场反应或行业趋势。通过结合公司基本面和文本特征,可开发量化投资策略或自动化报告生成系统。数据以标准表格格式提供,可直接加载至数据分析框架,方便进行预处理与模型集成。
背景与挑战
背景概述
在金融信息处理与自然语言理解交叉领域,sp500_dataset_earnings_sec_annotations_continued数据集应运而生,旨在系统化地整合并标注标准普尔500指数成分股公司的季度收益报告及相关陈述。该数据集由专注于金融文本挖掘的研究团队构建,其核心研究问题聚焦于如何从非结构化的企业财务文档中提取关键语义信息,以支持财务分析、市场情绪评估及预测建模等高级任务。通过结构化地组织公司代码、行业分类、具体收益数据以及带有分析、上下文和主题标签的文本陈述,该数据集为量化金融与计算语言学提供了宝贵的实验基础,显著促进了自动化财务报告解析与智能投资决策辅助系统的研究进展。
当前挑战
该数据集致力于解决金融文本信息抽取与语义理解的复杂挑战,其核心难题在于如何准确识别并分类企业收益报告中蕴含的多样化陈述,这些陈述往往涉及前瞻性预测、风险披露及业绩归因等专业内容,对模型的领域适应性与上下文推理能力提出极高要求。在构建过程中,研究人员面临数据采集与标注的双重困难:一方面,原始收益报告来源分散、格式不一,需进行大量清洗与对齐工作以确保数据一致性;另一方面,对文本陈述进行精准的主题划分、语境分析与语义标注依赖于深厚的金融专业知识,标注过程的成本与质量控制构成显著瓶颈。
常用场景
经典使用场景
在金融文本分析领域,该数据集以其结构化的季度收益报告文本与标注信息,为自然语言处理模型提供了丰富的训练素材。研究者通常利用这些标注的语句,结合对应的分析、上下文和主题,构建监督学习框架,以训练模型识别企业财务披露中的关键信息,例如盈利趋势、风险因素或管理层展望。这种应用不仅提升了文本理解的准确性,还促进了自动化财务报告解析技术的发展。
解决学术问题
该数据集有效应对了金融文本挖掘中语义理解与结构化信息提取的挑战。通过提供详细的企业收益声明及其多维度标注,它支持了诸如情感分析、主题建模、事件抽取等研究任务,帮助学者深入探究企业沟通策略与市场反应之间的关联。其意义在于为量化金融与计算语言学交叉领域建立了基准,推动了基于深度学习的财务文档分析方法的演进,增强了学术模型在真实金融场景中的解释力与实用性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于注意力机制的财务文本分类模型、跨季度收益预测的序列分析框架,以及结合领域知识的预训练语言模型微调策略。这些工作进一步拓展了数据集在时序预测、跨文档信息融合和少样本学习等方向的应用,形成了金融自然语言处理领域的一个活跃分支,为后续研究提供了方法论参考和性能基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作