nick-carroll1/sp500|股票市场数据集|金融分析数据集
收藏数据集卡片 for S&P 500 数据集
数据集描述
- 数据集创建者:该数据集是通过结合当前(截至2022年10月29日)S&P 500指数中每只股票自1970年1月1日以来的每日收盘价创建的。数据来源于Kaggle数据集(https://www.kaggle.com/datasets/paultimothymooney/stock-market-data),并使用PANDAS进行聚合,然后转换为HuggingFace数据集。
数据集概述
- 数据集大小:该数据集包含407列,指定日期和相关股票的收盘价。由于加载股票数据的问题(如股票名称变更,如FB变为META),有94只股票缺失。由于一些股票在1970年之前不存在,存在许多NA值。
支持的任务和排行榜
[更多信息需补充]
数据集结构
数据实例
[更多信息需补充]
数据字段
- 数据类型:float64
- 字段名称:包括MMM, AOS, ABT, ABBV, ABMD, ACN, ATVI, ADM, ADBE, ADP, AAP, A, APD, AKAM, ALK, ALB, ARE, ALGN, ALLE, LNT, GOOG, MO, AMZN, AMD, AEE, AAL, AEP, AXP, AIG, AMT, AWK, AMP, ABC, AME, AMGN, APH, ADI, AON, APA, AAPL, AMAT, ANET, AJG, AIZ, T, ATO, ADSK, AZO, AVB, AVY, BAC, BAX, BDX, WRB, BBY, BIO, BIIB, BLK, BK, BA, BWA, BXP, BSX, BMY, AVGO, BR, BRO, CHRW, CDNS, CZR, CPT, CPB, COF, CAH, KMX, CAT, CBOE, CDW, CNC, CNP, CF, CRL, SCHW, CHTR, CMG, CB, CHD, CINF, CTAS, CSCO, C, CFG, CLX, CME, CMS, KO, CTSH, CL, CMCSA, CAG, COP, ED, COO, CPRT, GLW, CSGP, COST, CCI, CMI, DHI, DRI, DVA, DE, DAL, DVN, DXCM, FANG, DLR, DFS, DISH, DIS, DG, DLTR, D, DPZ, DOV, DOW, DTE, DD, EMN, ETN, EBAY, ECL, EIX, EW, EA, LLY, EMR, ENPH, EOG, EPAM, EFX, EQIX, EQR, ESS, EL, RE, ES, EXC, EXPE, EXPD, EXR, XOM, FFIV, FDS, FAST, FRT, FDX, FITB, FRC, FE, FIS, FISV, FLT, FMC, F, FTNT, FBHS, FOXA, BEN, FCX, GRMN, IT, GNRC, GD, GE, GIS, GM, GPC, GILD, GPN, HAL, HIG, HAS, HCA, HSIC, HSY, HES, HPE, HLT, HOLX, HD, HON, HRL, HST, HPQ, HUM, HBAN, HII, IBM, IEX, IDXX, ITW, ILMN, INCY, IR, INTC, ICE, IP, IPG, IFF, INTU, ISRG, IVZ, IRM, JBHT, JKHY, JNJ, JCI, JPM, JNPR, K, KEY, KEYS, KMB, KIM, KLAC, KHC, KR, LH, LRCX, LVS, LDOS, LNC, LYV, LKQ, LMT, LOW, LYB, MRO, MPC, MKTX, MAR, MMC, MLM, MA, MKC, MCD, MCK, MDT, MRK, MET, MTD, MGM, MCHP, MU, MSFT, MAA, MHK, MOH, TAP, MDLZ, MPWR, MNST, MCO, MOS, MSI, MSCI, NDAQ, NTAP, NFLX, NWL, NEM, NWSA, NEE, NI, NDSN, NSC, NTRS, NOC, NCLH, NRG, NVDA, NVR, NXPI, ORLY, OXY, ODFL, OMC, OKE, PCAR, PKG, PH, PAYX, PAYC, PNR, PEP, PKI, PFE, PM, PSX, PNW, PXD, PNC, POOL, PPG, PFG, PG, PLD, PRU, PEG, PTC, PHM, QRVO, PWR, QCOM, DGX, RL, RJF, O, REG, REGN, RF, RSG, RMD, RHI, ROK, ROL, ROP, ROST, RCL, CRM, SBAC, SLB, STX, SEE, SRE, NOW, SHW, SBNY, SPG, SWKS, SO, LUV, SWK, SBUX, STT, SYK, SIVB, SYF, SNPS, TMUS, TROW, TTWO, TRGP, TEL, TDY, TSLA, TXN, TXT, TMO, TJX, TSCO, TDG, TRV, TYL, TSN, USB, UDR, ULTA, UNP, UAL, UPS, URI, UNH, UHS, VTR, VRSN, VRSK, VZ, VRTX, VFC, V, VMC, WAB, WBA, WMT, WM, WAT, WEC, WFC, WST, WDC, WRK, WY, WHR, WMB, WTW, GWW, WYNN, XEL, XYL, YUM, ZBRA, ZBH, ZION, ZTS, Date
数据分割
- 分割:未创建数据集的分割。
数据集创建
策划理由
[更多信息需补充]
源数据
- 来源:https://www.kaggle.com/datasets/paultimothymooney/stock-market-data
初始数据收集和规范化
[更多信息需补充]
源语言生产者
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据集的考虑
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
[更多信息需补充]
引用信息
[更多信息需补充]
贡献
感谢@github-username添加此数据集。

中性笔商品在不同地区天猫平台的销售渗透率分析数据
销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。
浙江省数据知识产权登记平台 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录