five

idx-stock

收藏
Hugging Face2025-12-14 更新2025-12-15 收录
下载链接:
https://huggingface.co/datasets/IRedDragonICY/idx-stock
下载链接
链接失效反馈
官方服务:
资源简介:
**印度尼西亚证券交易所(IDX)公司公告与披露数据集**是一个全面的纵向档案,收录了在**PT Bursa Efek Indonesia**(印度尼西亚证券交易所)上市的公司发布的公开公司披露、财务报告和监管公告。该数据集旨在促进东南亚新兴市场背景下金融自然语言处理(FinNLP)、事件研究方法、市场情绪分析和公司治理监控的高级学术研究。数据集通过官方披露渠道捕获原始信息流,保留了市场信号的时间完整性。 ### 数据集结构 #### 数据组织 数据集的结构旨在保留管理元数据和非结构化内容之间的关系完整性。核心组件包括: 1. **元数据索引:** JSON和CSV清单,详细说明每个公告的管理属性。 2. **非结构化文档:** 与特定监管事件相关的附件(PDF),如财务报表、公开披露材料和重要事实披露。 #### 特征模式 数据模式反映了交易所使用的官方字段定义。关键变量包括: | 特征 | 类型 | 描述 | | :--- | :--- | :--- | | `Id` | 字符串 | 公告条目的唯一内部标识符。 | | `AnnouncementNo` | 字符串 | 交易所分配的官方参考编号。 | | `Date` | ISO-8601 | 发布时间戳(`PublishDate`)。 | | `Title` | 字符串 | 披露的标题或主题(混合印尼语/英语)。 | | `Code` | 字符串 | 相关发行人的股票代码(如`BBCA`、`GOTO`)。 | | `AttachmentCount` | 整数 | 附加的补充文件数量。 | | `RawAttachments` | 对象 | 关联文档资产的元数据和检索路径。 | ### 方法论 #### 数据获取 该数据集通过针对印度尼西亚证券交易所公共公告端点的系统提取流程进行整理。采集过程优先考虑元数据的高保真捕获,以确保历史连续性。 #### 数据完整性 信息以“原样”呈现,未对标题或附件的文本内容进行后处理或规范化,以保留原始金融信号的真实性,适用于NLP应用。 ### 潜在应用 该数据集可作为各种计算金融任务的基础资源: * **金融情绪分析:** 训练模型以解释印尼语和英语的金融术语。 * **市场影响分析:** 将公告密度和情绪与价格波动相关联。 * **命名实体识别(NER):** 从印尼监管文件中提取公司实体、货币价值和关键人员。 * **RAG系统:** 开发检索增强生成系统,用于自动化尽职调查。
创建时间:
2025-12-03
原始信息汇总

印度尼西亚证券交易所(IDX)公司公告与披露数据集概述

数据集基本信息

  • 数据集名称:Indonesia Stock Exchange (IDX) Corporate Announcements & Disclosures
  • 数据集标识:IRedDragonICY/idx-stock
  • 许可证:idx-terms-of-use
  • 语言:印度尼西亚语 (id)、英语 (en)
  • 标签:finance, stock-market, idx, indonesia, nlp, corporate-disclosures, time-series
  • 数据规模:100K<n<1M

数据集描述

该数据集是一个关于在PT Bursa Efek Indonesia(印度尼西亚证券交易所)上市的发行人发布的公司公开披露、财务报告和监管公告的综合性纵向档案库。该语料库旨在促进东南亚新兴市场背景下金融自然语言处理(FinNLP)、事件研究方法论、市场情绪分析和公司治理监控的高级学术研究。

数据集结构

数据组织

数据集的结构旨在保持管理元数据与非结构化内容之间的关系完整性。核心组成部分包括:

  1. 元数据索引:详细说明每个公告管理属性的JSON和CSV清单。
  2. 非结构化文档:与特定监管事件相关的引用附件(PDF),例如财务报表、公开说明材料、重大事实披露。

特征模式

数据模式反映了交易所使用的官方字段定义。关键变量包括:

特征 类型 描述
Id 字符串 公告条目的唯一内部标识符。
AnnouncementNo 字符串 交易所分配的官方参考编号。
Date ISO-8601 发布时间戳 (PublishDate)。
Title 字符串 披露的标题或主题(混合印度尼西亚语/英语)。
Code 字符串 相关发行人的股票代码(例如,BBCAGOTO)。
AttachmentCount 整数 附加补充文件的数量。
RawAttachments 对象 相关文档资产的元数据和检索路径。

方法论

数据采集

该数据集是通过针对印度尼西亚证券交易所公共公告端点的系统提取流程整理的。采集过程优先考虑元数据的高保真捕获,以确保历史的连续性。

数据完整性

信息按来源“原样”呈现。未对标题或附件的文本内容进行任何后处理或规范化,以便为NLP应用保留原始金融信号的真实性。

潜在应用

该数据集可作为各种计算金融任务的基础资源:

  • 金融情绪分析:训练模型以解释印度尼西亚语和英语的金融术语。
  • 市场影响分析:将公告密度和情绪与价格波动相关联。
  • 命名实体识别(NER):从印度尼西亚监管文件中提取公司实体、货币价值和关键人员。
  • RAG系统:开发用于自动化尽职调查的检索增强生成系统。

使用条款与责任声明

使用本数据集严格受PT Bursa Efek Indonesia的使用条款(Syarat Penggunaan)约束。 访问和使用此存储库,即表示用户确认以下内容:

  1. 知识产权:所有商标、商号和数据均源自PT Bursa Efek Indonesia (IDX)。“Bursa Efek Indonesia”、“BEI”、“Indonesia Stock Exchange”和“IDX”是受保护的商标。
  2. 非商业用途:根据IDX使用条款,未经印度尼西亚证券交易所事先书面同意,不得将此处获得的数据用于商业目的。此存储库仅用于教育、学术和非商业研究目的
  3. “原样”保证:数据按“原样”和“可用状态”提供。存储库维护者和PT Bursa Efek Indonesia均不保证信息的准确性、完整性或及时性。
  4. 责任:存储库维护者对因使用此数据而产生的任何错误、延误或后果不承担任何责任。用户对遵守有关市场数据使用的适用法律和法规承担全部责任。 来源参考:https://idx.co.id/id/syarat-penggunaan/

引用

如果在研究或出版物中使用此数据集,请按以下方式引用: bibtex @misc{idx_stock_2025, title={Indonesia Stock Exchange (IDX) Corporate Announcements & Disclosures Dataset}, author={Hendianto, Mohammad Farid}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/IRedDragonICY/idx-stock}}, note={Data sourced from PT Bursa Efek Indonesia} }

搜集汇总
数据集介绍
main_image_url
构建方式
在金融信息学领域,构建高质量的数据集对于推动市场微观结构研究至关重要。IDX股票公告数据集通过系统化的采集流程,从印度尼西亚证券交易所的公开披露端点提取数据,确保了历史记录的完整性。该流程专注于高保真地捕获元数据,同时保持原始文本内容未经任何后处理或标准化,从而为自然语言处理应用保留了原始金融信号的真实性。数据集的结构设计旨在维护行政元数据与非结构化内容之间的关联完整性,核心组件包括详细记录每条公告管理属性的元数据索引,以及作为特定监管事件附件的非结构化文档。
特点
作为东南亚新兴市场金融文本分析的重要资源,该数据集展现出多方面的显著特征。其内容涵盖上市公司发布的全面纵向公共公司披露、财务报告和监管公告,语言上混合了印尼语和英语,为双语金融术语分析提供了素材。数据集严格遵循交易所的官方字段定义,保留了如唯一标识符、官方参考号、发布时间戳、标题、股票代码和附件数量等关键变量。这种“原样”呈现的方式,确保了用于情感分析、事件研究或公司治理监控的原始信息流的时序完整性与真实性。
使用方法
在计算金融的研究与应用中,该数据集为多项前沿任务提供了基础。研究者可将其用于训练模型以解析印尼语和英语的金融术语,进行细粒度的市场情绪分析。通过将公告密度及情感与价格波动相关联,能够深入探究市场影响机制。此外,数据集支持从印尼监管文件中提取公司实体、货币价值和关键人员等信息的命名实体识别任务,并可作为开发用于自动化尽职调查的检索增强生成系统的语料库。需要强调的是,使用本数据集必须严格遵守印度尼西亚证券交易所的条款,仅限用于非商业的教育与学术研究目的。
背景与挑战
背景概述
印度尼西亚证券交易所(IDX)公司公告与披露数据集由研究人员Mohammad Farid Hendianto于2025年构建,旨在为东南亚新兴市场的金融自然语言处理(FinNLP)提供关键资源。该数据集系统性地收录了在印尼证券交易所上市公司的公开披露信息、财务报告与监管公告,形成了一个纵向档案库。其核心研究问题聚焦于如何利用非结构化文本数据,支持事件研究、市场情绪分析和公司治理监控等高级学术探索,从而深化对新兴金融市场信息传播机制与市场效率的理解,对区域金融科技与计算金融学的发展具有显著推动作用。
当前挑战
该数据集致力于解决金融文本分析领域的核心挑战,即如何从混合印尼语与英语的官方公司公告中,精准提取语义信号以评估市场影响。具体挑战包括:对专业金融术语与本地语言进行鲁棒的情感分析与实体识别,以及将非结构化文档(如PDF附件)中的时序信息与市场波动进行可靠关联。在构建过程中,挑战主要源于数据采集的完整性,需确保从交易所公开端点系统提取元数据时保持历史连续性,同时严格遵循“原样”呈现原则以维护原始金融信号的真实性,这为后续自然语言处理任务的数据清洗与标准化带来了复杂性。
常用场景
衍生相关工作
基于该数据集衍生的经典研究集中在跨语言金融情感分析模型的构建。学者们利用其双语特性开发了针对印尼资本市场的专用词典与算法,相关成果已扩展至公司治理事件检测与市场操纵预警系统。这些工作推动了东南亚地区金融人工智能研究范式的形成与发展。
数据集最近研究
最新研究方向
在东南亚新兴金融市场背景下,印尼证券交易所(IDX)企业公告与披露数据集正成为金融自然语言处理(FinNLP)领域的前沿研究焦点。当前研究热点集中于利用该数据集构建多语言金融情感分析模型,以精准解析印尼语与英语混合的公告文本,从而捕捉市场情绪对股价波动的即时影响。同时,研究者们正积极探索基于检索增强生成(RAG)技术的自动化尽职调查系统,旨在从海量非结构化文档中高效提取关键实体与财务信息,为事件研究方法和公司治理监测提供数据驱动的洞察。这些研究方向不仅深化了对新兴市场信息效率的理解,也为区域金融科技应用奠定了坚实的实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作