five

sp500-earnings-transcripts

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/glopardo/sp500-earnings-transcripts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了标准普尔500指数公司的盈利电话会议记录,主要涵盖2014年至2024年,以及季度财务指标和公司基本面数据。

This dataset provides earnings conference call transcripts for companies in the S&P 500 Index, covering the period from 2014 to 2024, as well as quarterly financial metrics and company fundamental data.
创建时间:
2025-11-02
原始信息汇总

S&P 500 Earnings Call Transcripts 数据集概述

数据集基本信息

  • 数据集名称: S&P 500 Earnings Call Transcripts
  • 任务类别: 文本分类、问答、摘要、特征提取、文本检索
  • 语言: 英语
  • 标签: 金融、财报电话会议、标普500、财务分析、公司财报、情感分析、主题建模、金融自然语言处理、时间序列
  • 规模: 10K-100K样本
  • 创建机构: European Central Bank

数据覆盖范围

  • 时间跨度: 2013年第二季度至2025年第一季度
  • 公司数量: 496家
  • 总转录本数量: 20,681份

数据列描述

公司信息

  • ticker: 股票代码
  • company: 公司全称
  • cik: SEC中央索引密钥
  • sector: GICS行业分类
  • industry: GICS子行业分类
  • headquarters: 总部所在地
  • founded: 成立年份
  • date_added: 加入标普500指数日期

时间维度

  • earnings_date: 财报发布日期
  • datacqtr: 财报电话会议日历季度
  • year: 年份
  • quarter: 季度
  • datafqtr: 财报季度

财务指标

  • eps12mtrailing_qavg: 过去12个月每股收益季度平均值
  • eps12mtrailing_eoq: 过去12个月每股收益季度末值
  • eps12mfwd_qavg: 预期12个月每股收益季度平均值
  • eps12mfwd_eoq: 预期12个月每股收益季度末值
  • eps_lt: 预期长期每股收益增长率
  • peforw_qavg: 预期市盈率季度平均值
  • peforw_eoq: 预期市盈率季度末值

转录本数据

  • transcript: 完整的财报电话会议转录文本

相关论文

  • 论文标题: Verba Volant, Transcripta Manent: What Corporate Earnings Calls Reveal About the AI Stock Rally
  • 作者: CaZorzi, Michele; Lopardo, Gianluigi; Manu, Ana-Simona
  • 年份: 2025
  • 机构: European Central Bank
  • 论文链接: https://www.ecb.europa.eu/pub/pdf/scpwps/ecb.wp3093~458d28b4bc.lt.pdf

引用格式

bibtex @article{ecb2025genai, title={Verba Volant, Transcripta Manent: What Corporate Earnings Calls Reveal About the AI Stock Rally}, author={Ca Zorzi, Michele and Lopardo, Gianluigi and Manu, Ana-Simona}, year=2025, institution={European Central Bank}, number={3093}, type={Working Paper Series}, pdf={https://www.ecb.europa.eu/pub/pdf/scpwps/ecb.wp3093%7E458d28b4bc.en.pdf}, url={https://glopardo.com/corporatetalks/}, }

数据覆盖详情

  • 覆盖完整性: 大部分公司转录本覆盖完整,部分公司存在少量缺失季度
  • 覆盖统计表: 完整覆盖统计表可通过CSV文件获取(https://huggingface.co/datasets/glopardo/sp500-earnings-transcripts/blob/main/transcript_coverage.csv)
搜集汇总
数据集介绍
main_image_url
构建方式
在金融文本分析领域,该数据集通过系统化收集标准普尔500指数成分股企业的财报电话会议文本构建而成。数据来源涵盖2013年第二季度至2025年第一季度的完整时间序列,整合了496家上市公司共计20,681份会议记录。构建过程中严格遵循企业信息披露规范,同步收录了包括股票代码、行业分类、总部地址等公司基础信息,以及每股收益、市盈率等关键财务指标,形成了多维度的结构化数据集。
特点
该数据集最显著的特征在于其时空覆盖的完整性与数据维度的丰富性。时间跨度长达十余年,完整记录了各企业不同经济周期下的经营动态。数据结构设计科学,既包含完整的会议文本内容,又整合了GICS行业分类体系与SEC标准的企业标识,同时提供实际与预期财务指标的双重维度。这种多模态数据架构为研究企业语言特征与财务表现的相关性提供了理想样本。
使用方法
该数据集适用于自然语言处理与量化金融的交叉研究领域。研究人员可通过文本分类技术分析管理层语调,利用问答系统提取关键业务信息,或通过摘要模型凝练会议核心内容。在具体应用中,可结合时间序列分析方法追踪企业战略演变,运用情感分析探测市场情绪波动,或借助主题建模揭示行业发展趋势。数据集的标准化字段设计确保了与常用金融数据库的兼容性,为跨学科研究提供了便利。
背景与挑战
背景概述
在金融自然语言处理领域,企业财报电话会议记录作为非结构化数据源,蕴含着丰富的市场信息和战略洞察。欧洲中央银行研究团队于2025年发布的S&P 500财报电话会议数据集,覆盖2013至2025年间496家标普成分股的20,681份会议记录,通过整合公司基本信息、财务指标与完整文本,为量化分析企业沟通策略与市场表现关联性提供了标准化语料库。该数据集不仅支撑了关于人工智能股票热潮的实证研究,更成为金融文本挖掘领域的重要基础设施,推动着情感分析、主题建模与时间序列预测等多维度研究的发展。
当前挑战
该数据集面临的核心挑战体现在语义解析与数据完整性两个维度。在领域问题层面,金融文本特有的专业术语、管理层模糊表述与市场预期暗示,对传统自然语言处理模型构成语义消歧障碍;同时,跨时间维度的语境演变要求模型具备动态适应能力。在构建过程中,原始文本的异构格式转换、缺失季度记录的插值处理(如AMD等公司存在连续季度缺失),以及财务指标与文本内容的时序对齐,均需通过复杂的数据清洗流程来保证跨模态数据的一致性。
常用场景
经典使用场景
在金融自然语言处理领域,S&P 500财报电话会议数据集为分析师提供了探索企业沟通策略与市场反应关联性的重要平台。该数据集通过整合496家标普成分股企业超过两万份会议记录,结合季度财务指标与时间序列数据,构建了多维度分析框架。研究人员可基于文本分类技术识别管理层语调特征,运用主题建模解析战略重点演变轨迹,并通过问答系统提取关键业务指标,为量化金融研究提供结构化语料支撑。
解决学术问题
该数据集有效解决了企业信息披露质量评估与市场效率验证等核心学术议题。通过将管理层口头陈述与后续财务表现建立因果关联,学者能够检验信号传递理论在资本市场中的实践效能。其覆盖2013-2025年的连续观测周期,使得纵向研究企业沟通模式演变成为可能,特别在人工智能主题对股价影响机制分析方面,为行为金融学提供了微观证据基础,推动了金融文本分析方法的范式创新。
衍生相关工作
基于该数据集衍生的经典研究已形成系列学术成果。欧洲央行工作论文《Verba Volant, Transcripta Manent》开创性地构建了AI概念词汇库与股价关联模型,后续研究进一步拓展至ESG议题挖掘、供应链风险识别等维度。在方法论层面,该数据集催生了结合财务指标与文本特征的混合预测模型,推动了时序自然语言处理技术与金融预测任务的深度融合,为跨学科研究提供了标准化的基准测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作