five

jlh-ibm/earnings_call|财报电话会议数据集|情感分析数据集

收藏
hugging_face2023-09-15 更新2024-03-04 收录
财报电话会议
情感分析
下载链接:
https://hf-mirror.com/datasets/jlh-ibm/earnings_call
下载链接
链接失效反馈
资源简介:
该数据集包含收益电话会议记录、相关股票价格和行业指数数据。数据来源于2016年至2020年的NASDAQ股票市场,由Yahoo Finance和Thomson Reuters Eikon提供。数据集包含188份收益电话会议记录、11970个股票价格和1196个行业指数值。该数据集可用于评估NLP技术在金融应用中的潜力,并且可以通过类似的方法扩展数据集的时间范围。
提供机构:
jlh-ibm
原始信息汇总

数据集卡片:Earnings Calls Dataset

数据集描述

数据集概述

  • 许可证: cc0-1.0
  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 金融
  • 美观名称: Earnings Calls Dataset
  • 大小类别: 10K<n<100K

数据集配置

配置名称: stock_prices

  • 特征:
    • date: 日期类型 (date64)
    • open: 浮点类型 (float32)
    • high: 浮点类型 (float32)
    • low: 浮点类型 (float32)
    • close: 浮点类型 (float32)
    • adj_close: 浮点类型 (float32)
    • volume: 整数类型 (int64)
    • company: 字符串类型 (string)
  • 分割:
    • train:
      • 字节数: 578818
      • 样本数: 13155
  • 下载大小: 290243
  • 数据集大小: 578818

配置名称: transcript-sentiment

  • 特征:
    • text: 字符串类型 (string)
    • label: 类别标签类型 (class_label)
      • 名称:
        • 0: negative
        • 1: positive
    • company: 字符串类型 (string)
    • date: 日期类型 (date64)
    • para_no: 整数类型 (int32)
  • 分割:
    • train:
      • 字节数: 7414686
      • 样本数: 6851
    • test:
      • 字节数: 1928515
      • 样本数: 1693
  • 下载大小: 3868059
  • 数据集大小: 9343201

配置名称: transcripts

  • 特征:
    • company: 字符串类型 (string)
    • date: 日期类型 (date64)
    • transcript: 字符串类型 (string)
  • 分割:
    • train:
      • 字节数: 9592380
      • 样本数: 150
    • test:
      • 字节数: 2458569
      • 样本数: 38
  • 下载大小: 3577816
  • 数据集大小: 12050949
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Chinese-Roleplay-Novel

该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本,构建了约260条酒馆风格的多轮对话数据,每轮对话均包含详细的状态数据,如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等,状态信息以列表、表格、JSON等多种格式呈现。

huggingface 收录