five

indian-markets

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/tejhq/indian-markets
下载链接
链接失效反馈
官方服务:
资源简介:
TejHQ印度市场数据集提供了印度国家证券交易所(NSE)和孟买证券交易所(BSE)上市股票的每日OHLCV(开盘价、最高价、最低价、收盘价、成交量)数据。数据直接从交易所的官方Bhavcopy构建,无需经纪商、认证或爬取,仅包含干净的SEBI CMTS数据。数据集每日更新,涵盖约2,300个NSE和2,200个BSE的股票,数据从2024年1月1日开始。数据以Hive分区的parquet格式存储,每个文件按交易所和日期分区。数据集适用于时间序列预测和表格分类任务,特别适合金融分析和股票市场研究。

The TejHQ India Market Dataset provides daily OHLCV (Open, High, Low, Close, Volume) data for stocks listed on the National Stock Exchange (NSE) and Bombay Stock Exchange (BSE) of India. The data is constructed directly from the official Bhavcopy of the exchanges, without the need for brokers, authentication, or scraping, and contains only clean SEBI CMTS data. The dataset is updated daily, covering approximately 2,300 NSE and 2,200 BSE stocks, with data starting from January 1, 2024. The data is stored in Hive-partitioned parquet format, with each file partitioned by exchange and date. The dataset is suitable for time series forecasting and tabular classification tasks, and is particularly useful for financial analysis and stock market research.
创建时间:
2026-05-06
原始信息汇总

数据集概述:tejhq/indian-markets

基本信息

  • 数据集名称: TejHQ Indian Markets
  • 许可证: MIT
  • 任务类别: 时间序列预测、表格分类
  • 语言: 英语
  • 标签: 金融、印度、NSE、BSE、OHLCV、股票、权益
  • 数据集大小: 100K 到 1M 条记录

数据内容

该数据集提供印度两大证券交易所(NSE 和 BSE)上市股票的日频 OHLCV 数据,来源为交易所官方发布的 Bhavcopy(SEBI CMTS 数据),无需代理或抓取。

覆盖范围

  • NSE: 系列 EQ/BE/BZ,每日约 2,300 只工具,数据从 2024-01-01 开始。
  • BSE: 系列 A/B/T,每日约 2,200 只工具,数据从 2024-01-01 开始。
  • 数据每日在印度市场收盘后(约 IST 18:30)更新。

数据模式(Schema)

字段 类型 说明
date date 交易日期
symbol string 股票代码(如 RELIANCE
series string 交易所系列代码
isin string 国际证券识别码
name string 工具全名
open float64 开盘价(印度卢比)
high float64 最高价
low float64 最低价
close float64 收盘价
last float64 最后成交价
prev_close float64 前收盘价
volume int64 成交总量(股数)
turnover float64 成交总额(印度卢比)
trades int64 执行交易笔数

数据存储格式

  • 格式: Hive 分区 Parquet,每个文件按 (exchange, date) 划分。

  • 压缩: zstd 压缩。

  • 目录结构示例:

    nse/year=2025/month=04/date=2025-04-30.parquet bse/year=2025/month=04/date=2025-04-30.parquet

  • 分区在 DuckDB / pyarrow / datasets 中可直接裁剪查询。

快速使用示例

  • Polars: python import polars as pl from huggingface_hub import hf_hub_download p = hf_hub_download("tejhq/indian-markets", "nse/year=2025/month=04/date=2025-04-30.parquet", repo_type="dataset") df = pl.read_parquet(p)

  • DuckDB: sql SELECT date, symbol, close, volume FROM read_parquet(hf://datasets/tejhq/indian-markets/nse/**/*.parquet, hive_partitioning = 1) WHERE symbol = RELIANCE AND date >= 2025-01-01 ORDER BY date;

  • datasets: python from datasets import load_dataset ds = load_dataset("tejhq/indian-markets", data_files="nse/**/*.parquet")

来源与许可

  • 数据来源: NSE 和 BSE 官方 EOD Bhavcopy(公开、免费、可再分发)。
  • 代码: github.com/tejhq/tej-bazaar(MIT 许可)。
  • 数据许可: 交易所发布的数据以清洗后的 Parquet 形式再分发,商业使用前请核实交易所条款。

注意事项

  • 暂无公司行为(拆股、送股、股息)调整,调整收盘价将在后续阶段提供。
  • 同日数据在约 IST 18:30 后可用,提前获取将无返回。
  • Bhavcopy 偶尔存在异常(收盘价超出最低-最高区间、零成交量行),流水线会在发布前过滤。
  • 股票代码变更(重命名、合并、退市)尚未跨历史追踪。

未来路线图

  • [ ] 通过 GitHub Actions 定时任务自动每日发布(约 IST 18:30)
  • [ ] 回填 2024 年之前的遗留 Bhavcopy 数据
  • [ ] 添加公司行为及调整收盘价
  • [ ] 添加衍生指标(收益率、52周高低、平均成交量)
  • [ ] 通过 tej-api 提供 REST API(低延迟,带认证层级)
  • 完整计划见 ROADMAP.md
搜集汇总
数据集介绍
main_image_url
构建方式
indian-markets数据集源自印度国家证券交易所(NSE)与孟买证券交易所(BSE)官方发布的每日交易结余文件(Bhavcopy),摒弃了依赖经纪商、身份验证或网络爬虫等非官方渠道,直接利用印度证券交易委员会(SEBI)的统一市场数据格式(CMTS)进行清洗与整合。自2024年1月1日起,数据以Hive分区Parquet格式存储,按交易所与日期组织为独立文件,采用zstd压缩算法优化存储效率,并通过自动化流水线在每日印度市场收盘后约6:30 PM IST更新,确保数据的时效性与权威性。
特点
该数据集覆盖NSE约2300只与BSE约2200只活跃证券的日内OHLCV指标,包含开盘价、最高价、最低价、收盘价、最后成交价、前收盘价、成交量、成交额及成交笔数等丰富字段,并辅以证券代码、系列、ISIN及全称等标识信息。其独特之处在于数据纯净、结构统一,专为时间序列预测与表格分类任务设计,且无需任何中间授权即可自由访问,为印度金融市场的量化研究与模型训练提供了可靠基石。
使用方法
数据集的使用灵活便捷,可直接通过Hugging Face的`datasets`库加载,如`load_dataset('tejhq/indian-markets', data_files='nse/**/*.parquet')`,自动识别Hive分区以高效筛选特定交易所或日期范围。借助Polars或DuckDB等工具,用户可从Hugging Face Hub下载单个Parquet文件,执行按证券符号(如`RELIANCE`)与时间范围的精确查询,轻松集成至Python或SQL工作流中,快速开展金融时间序列分析与建模任务。
背景与挑战
背景概述
印度金融市场作为全球增长最快的新兴市场之一,其股票交易所(NSE和BSE)的数据对量化分析、算法交易及金融研究至关重要。indian-markets数据集由TejHQ机构于2024年创建,旨在提供自2024年1月1日起的NSE与BSE上市股票的日终OHLCV(开盘价、最高价、最低价、收盘价、成交量)数据。该数据集直接从印度证券交易委员会(SEBI)的官方Bhavcopy构建,无需第三方经纪人、认证或网络抓取,确保了数据的纯净性与合规性。其覆盖约每日2,300只NSE和2,200只BSE证券,采用Hive分区Parquet格式存储,极大便利了高效查询与分析。该数据集的出现填补了印度市场缺乏标准化、可复现且易于获取的高质量金融时间序列数据的空白,对学术研究、金融科技应用及个人投资者的量化策略开发产生了深远影响。
当前挑战
indian-markets数据集面对的主要挑战源自印度金融市场数据构建与应用的复杂性。在领域问题层面,其旨在解决的挑战是提供可靠且标准化的日频金融时间序列数据,以支持时间序列预测、分类及回测等任务,但需应对股票市场固有的数据噪声与异常(如收盘价超出当日价格区间或零成交量行),这些异常需通过精密管道过滤。在构建过程中,核心挑战包括:1)确保每日数据在印度市场收盘后约6:30 PM IST准时发布,但任何上游延迟或格式变更均可能导致数据不可用;2)处理历史数据回溯问题,因2024年前不同格式的Bhavcopy需统一Schema,这涉及复杂的ETL转换;3)尚未纳入公司行动(如股票拆分、分红、合并),导致调整收盘价缺失,限制了长期收益计算的准确性;4)符号变更(如股票重命名、退市)也未在历史记录中追踪,增加了跨时间序列分析的难度。
常用场景
经典使用场景
在金融时间序列分析领域,indian-markets数据集为研究印度两大主要证券交易所——印度国家证券交易所(NSE)和孟买证券交易所(BSE)的权益市场行为提供了标准化、高质量的基础数据来源。研究者可基于该数据集开展日频OHLCV(开盘价、最高价、最低价、收盘价、成交量)数据的建模与预测任务,涵盖以Reliance等代表性股票为标的的价格趋势预测、波动率建模以及交易信号生成等经典研究范式。数据集采用Hive分区的Parquet格式存储,支持高效的时间窗口切片与多维聚合查询,使其成为构建端到端量化分析管道的理想起点。
实际应用
在实际量化投资场景中,该数据集被广泛用于构建面向印度市场的自动化交易系统与风险监控工具。资产管理公司可利用其历史行情数据回测多因子选股模型,优化投资组合的风险收益特征;个人交易者则能通过接入每日更新的OHLCV数据,开发基于技术指标的趋势跟踪或均值回归策略。此外,数据集的高频更新机制(每日印度市场收盘后约6:30 PM IST发布)使其能够支撑实时或准实时的市场状态评估,例如结合成交量与价格变动监测资金流向异常,为短线决策提供关键参考信号。
衍生相关工作
基于该数据集,学术界与工业界已衍生出多项具有影响力的扩展工作。在数据增强维度,研究者正在构建包含除权除息调整的复权价格序列,以消除公司行为对历史回报率计算的影响;在特征工程方向,已有人基于原始OHLCV推导出日内波动率估计、相对强弱指数(RSI)及移动平均收敛散度(MACD)等衍生技术指标。同时,tej-api计划的推出预示着该数据集将向低延迟REST API服务演进,使下游应用能够以更低的延迟和更高的并发能力获取同一份清洁数据,进一步催化印度金融数据基础设施的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作