five

jlh-ibm/earnings_call

收藏
Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jlh-ibm/earnings_call
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含收益电话会议记录、相关股票价格和行业指数数据。数据来源于2016年至2020年的NASDAQ股票市场,由Yahoo Finance和Thomson Reuters Eikon提供。数据集包含188份收益电话会议记录、11970个股票价格和1196个行业指数值。该数据集可用于评估NLP技术在金融应用中的潜力,并且可以通过类似的方法扩展数据集的时间范围。

This dataset comprises earnings conference call transcripts, corresponding stock price data and industry index data. It is sourced from the NASDAQ stock market spanning from 2016 to 2020, and provided by Yahoo Finance and Thomson Reuters Eikon. This dataset includes 188 earnings conference call transcripts, 11,970 stock price records and 1,196 industry index values. It can be used to evaluate the potential of NLP technologies in financial applications, and its temporal scope can be extended via similar methods.
提供机构:
jlh-ibm
原始信息汇总

数据集卡片:Earnings Calls Dataset

数据集描述

数据集概述

  • 许可证: cc0-1.0
  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 金融
  • 美观名称: Earnings Calls Dataset
  • 大小类别: 10K<n<100K

数据集配置

配置名称: stock_prices

  • 特征:
    • date: 日期类型 (date64)
    • open: 浮点类型 (float32)
    • high: 浮点类型 (float32)
    • low: 浮点类型 (float32)
    • close: 浮点类型 (float32)
    • adj_close: 浮点类型 (float32)
    • volume: 整数类型 (int64)
    • company: 字符串类型 (string)
  • 分割:
    • train:
      • 字节数: 578818
      • 样本数: 13155
  • 下载大小: 290243
  • 数据集大小: 578818

配置名称: transcript-sentiment

  • 特征:
    • text: 字符串类型 (string)
    • label: 类别标签类型 (class_label)
      • 名称:
        • 0: negative
        • 1: positive
    • company: 字符串类型 (string)
    • date: 日期类型 (date64)
    • para_no: 整数类型 (int32)
  • 分割:
    • train:
      • 字节数: 7414686
      • 样本数: 6851
    • test:
      • 字节数: 1928515
      • 样本数: 1693
  • 下载大小: 3868059
  • 数据集大小: 9343201

配置名称: transcripts

  • 特征:
    • company: 字符串类型 (string)
    • date: 日期类型 (date64)
    • transcript: 字符串类型 (string)
  • 分割:
    • train:
      • 字节数: 9592380
      • 样本数: 150
    • test:
      • 字节数: 2458569
      • 样本数: 38
  • 下载大小: 3577816
  • 数据集大小: 12050949
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建汇集了2016至2020年间NASDAQ股票市场的188份收益电话会议记录、11970条股票价格数据以及1196个行业指数值。数据采集主要依托Yahoo Finance获取股票价格,并以Thomson Reuters Eikon提供的收益电话会议记录作为补充,确保了数据来源的多样性与准确性。
特点
Earnings Calls Dataset具备多维度特征,包含股票价格、电话会议记录文本及其对应的情感标签。这些数据不仅覆盖了股票市场关键信息,还通过情感分析标签对电话会议内容进行了深度标注,为金融领域自然语言处理研究提供了宝贵的资源。此外,数据集遵循CC0-1.0协议,开放性使用户能够无障碍地进行二次开发和研究。
使用方法
用户可通过HuggingFace的库直接加载该数据集,利用其提供的train和test分割,进行模型训练与评估。数据集支持文本分类任务,特别适用于金融情感分析的研究。用户需要遵循数据集的许可协议,合理使用并尊重数据隐私和知识产权。
背景与挑战
背景概述
在金融领域, earnings call(盈余电话会议)是公司向投资者公布财务结果的重要途径。该数据集 'Earnings Calls Dataset',由Roozen Dexter和Lelli Francesco于2021年创建,旨在为自然语言处理技术在金融领域的应用提供一个评价基准。数据集涵盖了2016至2020年间NASDAQ股市的相关公司盈余电话会议记录、股票价格及行业指数信息,总计包含188份会议记录、11970条股票价格和1196个行业指数值,数据来源于Yahoo Finance和Thomson Reuters Eikon,为研究者提供了丰富的资源以探究金融文本的情感分析及其对股市的影响。
当前挑战
该数据集面临的挑战主要在于:一方面,它需要解决如何准确提取和分类文本中的情感倾向问题,这对于理解市场情绪和预测股票价格波动至关重要;另一方面,构建过程中遇到的挑战包括数据收集的全面性、准确性和时效性,特别是在处理大量非结构化文本数据和整合多个数据源时。此外,如何有效扩展数据集以覆盖更广泛的金融市场和时间范围,也是当前面临的一项挑战。
常用场景
经典使用场景
在金融领域的人文学科研究中,'Earnings Calls Dataset'数据集被广泛运用于文本分类任务。其经典的使用场景在于,通过分析财报电话会议的转录文本,研究者能够对公司的财务状况和未来展望进行情感分析,进而预测股票市场的走势。
实际应用
在实际应用中,该数据集被金融分析师和量化投资者用来构建预测模型,通过分析转录文本中的情感信息,辅助决策,优化投资组合和风险管理策略。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括但不限于情绪分析模型的改进、金融文本的自然语言处理技术发展,以及结合其他数据源如股票价格和行业指数进行多模态分析的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作