five

yahoo-finance-data|金融数据数据集|财务分析数据集

收藏
huggingface2024-11-29 更新2024-12-12 收录
金融数据
财务分析
下载链接:
https://huggingface.co/datasets/bwzheng2010/yahoo-finance-data
下载链接
链接失效反馈
资源简介:
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
创建时间:
2024-11-28
原始信息汇总

Yahoo Finance 金融数据集

数据集概述

该数据集包含从 Yahoo! Finance、Nasdaq 和美国财政部通过公开 API 获取的金融数据,主要用于研究和教育目的。数据集定期更新,每次更新都会发布一个新的版本,版本格式为 dt=yyyy-mm-dd,其中 yyyy-mm-dd 表示最新数据的日期。

数据集列表

1. stock_profile

  • 来源: https://finance.yahoo.com/quote/{$symbol}/profile/
  • 描述: 包含公司详细信息,如地址、行业和员工数量。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    address VARCHAR 公司地址
    city VARCHAR 城市
    country VARCHAR 国家
    phone VARCHAR 电话号码
    zip VARCHAR 邮政编码
    industry VARCHAR 行业类型
    sector VARCHAR 业务部门
    long_business_summary VARCHAR 业务摘要
    full_time_employees INTEGER 全职员工数量
    report_date VARCHAR 数据报告日期

2. stock_officers

  • 来源: https://finance.yahoo.com/quote/{$symbol}/profile/
  • 描述: 列出公司高管,包括他们的薪酬和职位。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    name VARCHAR 高管姓名
    title VARCHAR 高管职位
    age INTEGER 高管年龄
    born INTEGER 出生年份
    pay INTEGER 薪酬(美元)
    exercised INTEGER 行使的股票期权
    unexercised INTEGER 未行使的股票期权

3. stock_summary

  • 来源: https://finance.yahoo.com/quote/${symbol}/key-statistics/
  • 描述: 提供财务指标,如市值、市盈率(P/E)和每股收益(EPS)。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    market_cap DECIMAL(38,2) 市值(美元)
    enterprise_value DECIMAL(38,2) 企业价值(美元)
    shares_outstanding DECIMAL(38,2) 流通股数量
    beta DECIMAL(38,2) 贝塔值
    trailing_pe DECIMAL(38,2) 市盈率(TTM)
    forward_pe DECIMAL(38,2) 市盈率(前瞻)
    tailing_eps DECIMAL(38,2) 每股收益(TTM)
    forward_eps DECIMAL(38,2) 每股收益(前瞻)
    enterprise_to_ebitda DECIMAL(38,2) 企业价值/EBITDA
    enterprise_to_revenue DECIMAL(38,2) 企业价值/收入
    peg_ratio DECIMAL(38,2) PEG比率
    currency VARCHAR 货币(如美元)

4. stock_tailing_eps

  • 来源: https://ycharts.com/companies/${symbol}/eps_ttm
  • 描述: 提供财务指标,如每股收益(TTM EPS)。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    tailing_eps DECIMAL(38,2) 每股收益(TTM)
    update_time VARCHAR 最后更新时间

5. stock_earning_calendar

  • 来源: https://www.nasdaq.com/market-activity/earnings
  • 描述: 包含公司财报信息,包括股票代码、报告日期、公司名称和财政季度结束日期。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    name VARCHAR 公司名称
    fiscal_quarter_ending VARCHAR 财政季度结束日期

6. stock_historical_eps

  • 来源: https://finance.yahoo.com/quote/${symbol}/analysis/#Earnings History
  • 描述: 包含公司历史财报数据,包括股票代码、实际和预计的每股收益、意外百分比和对应的财政季度。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    eps_actual VARCHAR 实际每股收益
    eps_estimate VARCHAR 预计每股收益
    surprise_percent VARCHAR 意外百分比
    quarter_name VARCHAR 财政季度名称
    quarter_date VARCHAR 财政季度结束日期

7. stock_statement

  • 来源: https://finance.yahoo.com/quote/${symbol}/financials/
  • 描述: 包含公司财务报表详细信息,包括股票代码、报告日期、特定财务项目及其值、相关报表类型和期间。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    item_name VARCHAR 财务报表项目名称
    item_value DECIMAL(38,2) 财务报表项目值
    finance_type VARCHAR 财务报表类型
    period_type VARCHAR 报告期间类型

8. stock_prices

  • 来源: https://finance.yahoo.com/quote/${symbol}/chart
  • 描述: 包含历史股票市场数据,包括股票代码、报告日期和关键交易指标,如开盘价、收盘价、最高价、最低价和交易量。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 交易日期
    open DECIMAL(38,2) 开盘价
    close DECIMAL(38,2) 收盘价
    high DECIMAL(38,2) 最高价
    low DECIMAL(38,2) 最低价
    volume BIGINT 交易量

9. stock_dividend_events

  • 来源: https://finance.yahoo.com/quote/${symbol}/chart
  • 描述: 包含股息数据,包括股票代码、报告日期和股息值。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    amount DECIMAL(38,2) 股息金额

10. stock_split_events

  • 来源: https://finance.yahoo.com/quote/${symbol}/chart
  • 描述: 包含股票拆分数据,包括股票代码、报告日期和拆分因子。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    split_factor VARCHAR 拆分因子

11. exchange_rate

  • 来源: https://finance.yahoo.com/quote/${symbol}/chart
  • 描述: 包含报告日期的货币汇率数据,包括开盘价、收盘价、最高价和最低价。
  • :
    列名 列类型 描述
    symbol VARCHAR 股票代码
    report_date VARCHAR 报告日期
    open DECIMAL(38,2) 开盘价
    close DECIMAL(38,2) 收盘价
    high DECIMAL(38,2) 最高价
    low DECIMAL(38,2) 最低价

12. daily_treasury_yield

  • 来源: https://home.treasury.gov/
  • 描述: 包含每日国债收益率数据,包括不同时间段的收益率(月度和年度)。
  • :
    列名 列类型 描述
    report_date VARCHAR 报告日期
    bc1_month DECIMAL(38,2) 1个月国债收益率
    bc2_month DECIMAL(38,2) 2个月国债收益率
    bc3_month DECIMAL(38,2) 3个月国债收益率
    bc6_month DECIMAL(38,2) 6个月国债收益率
    bc1_year DECIMAL(38,2) 1年国债收益率
    bc2_year DECIMAL(38,2) 2年国债收益率
    bc3_year DECIMAL(38,2) 3年国债收益率
    bc5_year DECIMAL(38,2) 5年国债收益率
    bc7_year DECIMAL(38,2) 7年国债收益率
    bc10_year DECIMAL(38,2) 10年国债收益率
    bc30_year DECIMAL(38,2) 30年国债收益率

数据使用说明

数据集可通过 DuckDB 进行查询,所有数据集均为公开访问,并以 Parquet 文件格式存储。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合来自Yahoo! Finance、Nasdaq以及美国财政部的公开API数据构建而成,涵盖了多个金融领域的关键信息。数据集的构建方式依赖于定期更新,确保数据的时效性和准确性。每个数据集的版本通过GIT TAGS进行管理,版本号格式为`dt=yyyy-mm-dd`,便于用户追踪最新数据。数据以Parquet格式存储,便于高效查询和处理。
特点
该数据集的特点在于其广泛的数据覆盖范围和多维度的金融信息。它不仅包含了公司基本信息、高管薪酬、财务指标等基础数据,还涵盖了历史股价、股息事件、股票拆分等市场动态数据。此外,数据集还提供了汇率和每日国债收益率等宏观经济数据,为金融研究提供了全面的支持。
使用方法
用户可以通过DuckDB工具进行数据查询,使用SQL语句从不同的数据集中提取所需信息。例如,用户可以查询特定股票的公司概况、高管信息、财务摘要等。数据集的查询方式灵活,支持按股票代码、报告日期等条件进行筛选,满足不同研究需求。所有数据集均以Parquet格式存储,确保高效的数据读取和处理。
背景与挑战
背景概述
在金融数据分析领域,准确且全面的数据集对于研究与决策至关重要。yahoo-finance-data数据集由Bowen Zheng创建,旨在通过整合来自Yahoo! Finance、Nasdaq及美国财政部的公开API数据,为研究者和教育工作者提供高质量的金融数据资源。该数据集涵盖了股票概况、公司高管信息、财务指标、历史股价、分红事件、汇率及国债收益率等多个方面,极大地丰富了金融数据的研究维度。通过定期更新和版本控制,确保数据的时效性和可靠性,为金融市场的深入分析提供了坚实的基础。
当前挑战
尽管yahoo-finance-data数据集在金融数据领域具有广泛的应用前景,但其构建与维护过程中仍面临诸多挑战。首先,数据来源的多样性要求确保各数据源之间的兼容性与一致性,避免数据冲突与冗余。其次,金融市场的动态变化使得数据更新频率较高,如何高效地进行数据抓取与处理成为一大难题。此外,数据隐私与合规性问题也不容忽视,尤其是在处理敏感的财务信息时,需严格遵守相关法律法规。最后,数据集的规模与复杂性增加了查询与分析的难度,如何优化数据存储与检索效率也是亟待解决的问题。
常用场景
经典使用场景
yahoo-finance-data数据集在金融分析领域具有广泛的应用,尤其是在股票市场研究和投资决策中。该数据集提供了丰富的公司财务信息、股票价格历史、财务报表、股息和拆股事件等数据,使得研究者能够深入分析公司的财务健康状况、市场表现以及宏观经济指标的影响。通过这些数据,分析师可以构建复杂的金融模型,预测股票走势,评估投资风险,并为投资者提供科学的投资建议。
衍生相关工作
基于yahoo-finance-data数据集,许多经典的研究工作和金融工具得以衍生。例如,研究者利用该数据集开发了多种股票预测模型,包括基于机器学习的预测算法和时间序列分析模型。此外,该数据集还促进了金融数据可视化工具的发展,帮助用户更直观地理解复杂的金融数据。在学术界,该数据集也被广泛用于金融工程、行为金融学等领域的研究,推动了相关理论的进步。
数据集最近研究
最新研究方向
在金融数据分析领域,yahoo-finance-data数据集的最新研究方向主要集中在利用机器学习和深度学习技术对股票市场进行预测和分析。研究者们通过整合该数据集中的多维度金融数据,如股票价格、财务报表、高管信息等,构建复杂的预测模型,以期提高市场预测的准确性。此外,该数据集还被广泛应用于金融风险评估、投资组合优化以及市场情绪分析等前沿领域,为金融科技的创新提供了坚实的基础。随着数据更新频率的提升和数据质量的优化,yahoo-finance-data数据集在推动金融数据科学研究方面展现出越来越重要的作用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录