indian-markets
收藏数据集概述:tejhq/indian-markets
基本信息
- 数据集名称: TejHQ Indian Markets
- 许可证: MIT
- 任务类别: 时间序列预测、表格分类
- 语言: 英语
- 标签: 金融、印度、NSE、BSE、OHLCV、股票、权益
- 数据集大小: 100K 到 1M 条记录
数据内容
该数据集提供印度两大证券交易所(NSE 和 BSE)上市股票的日频 OHLCV 数据,来源为交易所官方发布的 Bhavcopy(SEBI CMTS 数据),无需代理或抓取。
覆盖范围
- NSE: 系列
EQ/BE/BZ,每日约 2,300 只工具,数据从 2024-01-01 开始。 - BSE: 系列
A/B/T,每日约 2,200 只工具,数据从 2024-01-01 开始。 - 数据每日在印度市场收盘后(约 IST 18:30)更新。
数据模式(Schema)
| 字段 | 类型 | 说明 |
|---|---|---|
date |
date | 交易日期 |
symbol |
string | 股票代码(如 RELIANCE) |
series |
string | 交易所系列代码 |
isin |
string | 国际证券识别码 |
name |
string | 工具全名 |
open |
float64 | 开盘价(印度卢比) |
high |
float64 | 最高价 |
low |
float64 | 最低价 |
close |
float64 | 收盘价 |
last |
float64 | 最后成交价 |
prev_close |
float64 | 前收盘价 |
volume |
int64 | 成交总量(股数) |
turnover |
float64 | 成交总额(印度卢比) |
trades |
int64 | 执行交易笔数 |
数据存储格式
-
格式: Hive 分区 Parquet,每个文件按
(exchange, date)划分。 -
压缩: zstd 压缩。
-
目录结构示例:
nse/year=2025/month=04/date=2025-04-30.parquet bse/year=2025/month=04/date=2025-04-30.parquet
-
分区在 DuckDB / pyarrow /
datasets中可直接裁剪查询。
快速使用示例
-
Polars: python import polars as pl from huggingface_hub import hf_hub_download p = hf_hub_download("tejhq/indian-markets", "nse/year=2025/month=04/date=2025-04-30.parquet", repo_type="dataset") df = pl.read_parquet(p)
-
DuckDB: sql SELECT date, symbol, close, volume FROM read_parquet(hf://datasets/tejhq/indian-markets/nse/**/*.parquet, hive_partitioning = 1) WHERE symbol = RELIANCE AND date >= 2025-01-01 ORDER BY date;
-
datasets: python from datasets import load_dataset ds = load_dataset("tejhq/indian-markets", data_files="nse/**/*.parquet")
来源与许可
- 数据来源: NSE 和 BSE 官方 EOD Bhavcopy(公开、免费、可再分发)。
- 代码: github.com/tejhq/tej-bazaar(MIT 许可)。
- 数据许可: 交易所发布的数据以清洗后的 Parquet 形式再分发,商业使用前请核实交易所条款。
注意事项
- 暂无公司行为(拆股、送股、股息)调整,调整收盘价将在后续阶段提供。
- 同日数据在约 IST 18:30 后可用,提前获取将无返回。
- Bhavcopy 偶尔存在异常(收盘价超出最低-最高区间、零成交量行),流水线会在发布前过滤。
- 股票代码变更(重命名、合并、退市)尚未跨历史追踪。
未来路线图
- [ ] 通过 GitHub Actions 定时任务自动每日发布(约 IST 18:30)
- [ ] 回填 2024 年之前的遗留 Bhavcopy 数据
- [ ] 添加公司行为及调整收盘价
- [ ] 添加衍生指标(收益率、52周高低、平均成交量)
- [ ] 通过
tej-api提供 REST API(低延迟,带认证层级) - 完整计划见 ROADMAP.md




