five

nick-carroll1/sp500|股票市场数据集|金融分析数据集

收藏
hugging_face2022-10-30 更新2024-03-04 收录
股票市场
金融分析
下载链接:
https://hf-mirror.com/datasets/nick-carroll1/sp500
下载链接
链接失效反馈
资源简介:
该数据集包含了自1970年1月1日以来,截至2022年10月29日的S&P 500指数中每只股票的每日收盘价。数据来源于Kaggle数据集,并使用PANDAS进行聚合后转换为HuggingFace数据集。数据集包含407列,指定了日期和S&P 500中股票的收盘价,但由于某些股票数据加载问题,缺少了94只股票的数据。此外,由于某些股票在1970年之前不存在,数据集中存在许多NA值。
提供机构:
nick-carroll1
原始信息汇总

数据集卡片 for S&P 500 数据集

数据集描述

  • 数据集创建者:该数据集是通过结合当前(截至2022年10月29日)S&P 500指数中每只股票自1970年1月1日以来的每日收盘价创建的。数据来源于Kaggle数据集(https://www.kaggle.com/datasets/paultimothymooney/stock-market-data),并使用PANDAS进行聚合,然后转换为HuggingFace数据集。

数据集概述

  • 数据集大小:该数据集包含407列,指定日期和相关股票的收盘价。由于加载股票数据的问题(如股票名称变更,如FB变为META),有94只股票缺失。由于一些股票在1970年之前不存在,存在许多NA值。

支持的任务和排行榜

[更多信息需补充]

数据集结构

数据实例

[更多信息需补充]

数据字段

  • 数据类型:float64
  • 字段名称:包括MMM, AOS, ABT, ABBV, ABMD, ACN, ATVI, ADM, ADBE, ADP, AAP, A, APD, AKAM, ALK, ALB, ARE, ALGN, ALLE, LNT, GOOG, MO, AMZN, AMD, AEE, AAL, AEP, AXP, AIG, AMT, AWK, AMP, ABC, AME, AMGN, APH, ADI, AON, APA, AAPL, AMAT, ANET, AJG, AIZ, T, ATO, ADSK, AZO, AVB, AVY, BAC, BAX, BDX, WRB, BBY, BIO, BIIB, BLK, BK, BA, BWA, BXP, BSX, BMY, AVGO, BR, BRO, CHRW, CDNS, CZR, CPT, CPB, COF, CAH, KMX, CAT, CBOE, CDW, CNC, CNP, CF, CRL, SCHW, CHTR, CMG, CB, CHD, CINF, CTAS, CSCO, C, CFG, CLX, CME, CMS, KO, CTSH, CL, CMCSA, CAG, COP, ED, COO, CPRT, GLW, CSGP, COST, CCI, CMI, DHI, DRI, DVA, DE, DAL, DVN, DXCM, FANG, DLR, DFS, DISH, DIS, DG, DLTR, D, DPZ, DOV, DOW, DTE, DD, EMN, ETN, EBAY, ECL, EIX, EW, EA, LLY, EMR, ENPH, EOG, EPAM, EFX, EQIX, EQR, ESS, EL, RE, ES, EXC, EXPE, EXPD, EXR, XOM, FFIV, FDS, FAST, FRT, FDX, FITB, FRC, FE, FIS, FISV, FLT, FMC, F, FTNT, FBHS, FOXA, BEN, FCX, GRMN, IT, GNRC, GD, GE, GIS, GM, GPC, GILD, GPN, HAL, HIG, HAS, HCA, HSIC, HSY, HES, HPE, HLT, HOLX, HD, HON, HRL, HST, HPQ, HUM, HBAN, HII, IBM, IEX, IDXX, ITW, ILMN, INCY, IR, INTC, ICE, IP, IPG, IFF, INTU, ISRG, IVZ, IRM, JBHT, JKHY, JNJ, JCI, JPM, JNPR, K, KEY, KEYS, KMB, KIM, KLAC, KHC, KR, LH, LRCX, LVS, LDOS, LNC, LYV, LKQ, LMT, LOW, LYB, MRO, MPC, MKTX, MAR, MMC, MLM, MA, MKC, MCD, MCK, MDT, MRK, MET, MTD, MGM, MCHP, MU, MSFT, MAA, MHK, MOH, TAP, MDLZ, MPWR, MNST, MCO, MOS, MSI, MSCI, NDAQ, NTAP, NFLX, NWL, NEM, NWSA, NEE, NI, NDSN, NSC, NTRS, NOC, NCLH, NRG, NVDA, NVR, NXPI, ORLY, OXY, ODFL, OMC, OKE, PCAR, PKG, PH, PAYX, PAYC, PNR, PEP, PKI, PFE, PM, PSX, PNW, PXD, PNC, POOL, PPG, PFG, PG, PLD, PRU, PEG, PTC, PHM, QRVO, PWR, QCOM, DGX, RL, RJF, O, REG, REGN, RF, RSG, RMD, RHI, ROK, ROL, ROP, ROST, RCL, CRM, SBAC, SLB, STX, SEE, SRE, NOW, SHW, SBNY, SPG, SWKS, SO, LUV, SWK, SBUX, STT, SYK, SIVB, SYF, SNPS, TMUS, TROW, TTWO, TRGP, TEL, TDY, TSLA, TXN, TXT, TMO, TJX, TSCO, TDG, TRV, TYL, TSN, USB, UDR, ULTA, UNP, UAL, UPS, URI, UNH, UHS, VTR, VRSN, VRSK, VZ, VRTX, VFC, V, VMC, WAB, WBA, WMT, WM, WAT, WEC, WFC, WST, WDC, WRK, WY, WHR, WMB, WTW, GWW, WYNN, XEL, XYL, YUM, ZBRA, ZBH, ZION, ZTS, Date

数据分割

  • 分割:未创建数据集的分割。

数据集创建

策划理由

[更多信息需补充]

源数据

  • 来源:https://www.kaggle.com/datasets/paultimothymooney/stock-market-data

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据集的考虑

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

[更多信息需补充]

引用信息

[更多信息需补充]

贡献

感谢@github-username添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合当前(截至2022年10月29日)S&P 500指数中每只股票自1970年1月1日以来的每日收盘价构建而成。数据源自Kaggle数据集(https://www.kaggle.com/datasets/paultimothymooney/stock-market-data),并使用PANDAS进行聚合,随后转换为HuggingFace数据集格式。
特点
该数据集包含407列,涵盖了S&P 500指数中可获取数据的股票的日期及其对应的收盘价。由于数据加载问题(如股票名称变更),有94只股票的数据缺失,且存在大量NA值,主要是因为某些股票在1970年之前尚未上市。
使用方法
用户可以通过加载该数据集进行金融分析、时间序列预测等任务。由于数据集未进行分割,用户需自行进行数据划分以适应不同的模型训练需求。数据集的特征主要为各股票的收盘价,用户可根据需要进行进一步的数据处理和特征工程。
背景与挑战
背景概述
S&P 500数据集是由Nick Carroll创建的,旨在提供自1970年1月1日以来的S&P 500指数中各股票的每日收盘价数据。该数据集的构建基于Kaggle上的一个公开数据集,并通过PANDAS进行数据聚合和处理,最终转换为HuggingFace数据集格式。该数据集包含407列,涵盖了S&P 500指数中的大部分股票,但由于数据加载问题,有94只股票的数据缺失。此数据集的创建为金融分析和机器学习研究提供了宝贵的历史数据资源,有助于研究人员和投资者更好地理解和预测市场动态。
当前挑战
S&P 500数据集在构建过程中面临的主要挑战包括数据缺失问题,特别是由于股票名称变更导致的94只股票数据无法加载。此外,由于部分股票在1970年之前尚未上市,数据集中存在大量NA值,这增加了数据清洗和处理的复杂性。在应用方面,该数据集面临的挑战是如何有效利用这些历史数据进行金融预测和市场分析,尤其是在处理不完整数据和时间序列预测时,需要开发更为鲁棒的模型和算法。
常用场景
经典使用场景
在金融分析领域,S&P 500数据集常用于时间序列分析和预测模型构建。研究者利用该数据集的历史收盘价,进行股票价格预测、市场趋势分析以及投资组合优化等经典应用。通过分析不同股票的长期表现,投资者可以制定更为精准的投资策略,从而提高投资回报率。
实际应用
在实际应用中,S&P 500数据集被广泛用于金融机构的风险管理、投资决策支持系统以及量化交易策略的开发。通过对历史数据的分析,金融机构能够更好地评估市场风险,优化资产配置,并制定更为稳健的投资策略。此外,该数据集还为个人投资者提供了宝贵的参考信息,帮助他们做出更为明智的投资选择。
衍生相关工作
基于S&P 500数据集,衍生出了众多经典工作,如股票价格预测模型、市场情绪分析以及投资组合优化算法。这些工作不仅在学术界产生了深远影响,也在实际金融市场中得到了广泛应用。例如,基于该数据集的时间序列分析方法已被用于开发多种量化交易策略,显著提升了投资回报率。此外,该数据集还促进了金融机器学习领域的研究,推动了相关技术的创新与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录