idx-stock
收藏印度尼西亚证券交易所(IDX)公司公告与披露数据集概述
数据集基本信息
- 数据集名称:Indonesia Stock Exchange (IDX) Corporate Announcements & Disclosures
- 数据集标识:IRedDragonICY/idx-stock
- 许可证:idx-terms-of-use
- 语言:印度尼西亚语 (id)、英语 (en)
- 标签:finance, stock-market, idx, indonesia, nlp, corporate-disclosures, time-series
- 数据规模:100K<n<1M
数据集描述
该数据集是一个关于在PT Bursa Efek Indonesia(印度尼西亚证券交易所)上市的发行人发布的公司公开披露、财务报告和监管公告的综合性纵向档案库。该语料库旨在促进东南亚新兴市场背景下金融自然语言处理(FinNLP)、事件研究方法论、市场情绪分析和公司治理监控的高级学术研究。
数据集结构
数据组织
数据集的结构旨在保持管理元数据与非结构化内容之间的关系完整性。核心组成部分包括:
- 元数据索引:详细说明每个公告管理属性的JSON和CSV清单。
- 非结构化文档:与特定监管事件相关的引用附件(PDF),例如财务报表、公开说明材料、重大事实披露。
特征模式
数据模式反映了交易所使用的官方字段定义。关键变量包括:
| 特征 | 类型 | 描述 |
|---|---|---|
Id |
字符串 | 公告条目的唯一内部标识符。 |
AnnouncementNo |
字符串 | 交易所分配的官方参考编号。 |
Date |
ISO-8601 | 发布时间戳 (PublishDate)。 |
Title |
字符串 | 披露的标题或主题(混合印度尼西亚语/英语)。 |
Code |
字符串 | 相关发行人的股票代码(例如,BBCA,GOTO)。 |
AttachmentCount |
整数 | 附加补充文件的数量。 |
RawAttachments |
对象 | 相关文档资产的元数据和检索路径。 |
方法论
数据采集
该数据集是通过针对印度尼西亚证券交易所公共公告端点的系统提取流程整理的。采集过程优先考虑元数据的高保真捕获,以确保历史的连续性。
数据完整性
信息按来源“原样”呈现。未对标题或附件的文本内容进行任何后处理或规范化,以便为NLP应用保留原始金融信号的真实性。
潜在应用
该数据集可作为各种计算金融任务的基础资源:
- 金融情绪分析:训练模型以解释印度尼西亚语和英语的金融术语。
- 市场影响分析:将公告密度和情绪与价格波动相关联。
- 命名实体识别(NER):从印度尼西亚监管文件中提取公司实体、货币价值和关键人员。
- RAG系统:开发用于自动化尽职调查的检索增强生成系统。
使用条款与责任声明
使用本数据集严格受PT Bursa Efek Indonesia的使用条款(Syarat Penggunaan)约束。 访问和使用此存储库,即表示用户确认以下内容:
- 知识产权:所有商标、商号和数据均源自PT Bursa Efek Indonesia (IDX)。“Bursa Efek Indonesia”、“BEI”、“Indonesia Stock Exchange”和“IDX”是受保护的商标。
- 非商业用途:根据IDX使用条款,未经印度尼西亚证券交易所事先书面同意,不得将此处获得的数据用于商业目的。此存储库仅用于教育、学术和非商业研究目的。
- “原样”保证:数据按“原样”和“可用状态”提供。存储库维护者和PT Bursa Efek Indonesia均不保证信息的准确性、完整性或及时性。
- 责任:存储库维护者对因使用此数据而产生的任何错误、延误或后果不承担任何责任。用户对遵守有关市场数据使用的适用法律和法规承担全部责任。 来源参考:https://idx.co.id/id/syarat-penggunaan/
引用
如果在研究或出版物中使用此数据集,请按以下方式引用: bibtex @misc{idx_stock_2025, title={Indonesia Stock Exchange (IDX) Corporate Announcements & Disclosures Dataset}, author={Hendianto, Mohammad Farid}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/IRedDragonICY/idx-stock}}, note={Data sourced from PT Bursa Efek Indonesia} }




