five

thaifin-financials

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/ninyawee/thaifin-financials
下载链接
链接失效反馈
官方服务:
资源简介:
thaifin-financials是一个标记的长格式财务报表数据集,涵盖所有泰国上市公司(包括SET和mai市场)的财务数据,基于泰国证券交易委员会(SEC)IDISC的公开监管文件构建。数据集以泰语和英语为主,专注于金融领域,规模在10万到100万条记录之间。数据内容源自原始监管文件,如FINANCIAL_STATEMENTS.XLS[X]、NOTES.DOC[X]和AUDITOR_REPORT.DOC[X],每个数据行可通过filing_id追溯到具体文件。数据集计划包含五个Parquet表:financial_lines(按公司、期间、报表、概念等粒度存储财务行项目)、concepts(带可选XBRL参考的策划概念字典)、auditor_reports(结构化审计意见和原始Markdown)、notes_text(财务报表附注的完整Markdown文本)和filings(数据来源和增量状态记录)。该数据集适用于金融分析、财务报表标准化、基本面研究等任务,可通过thaifin库进行编程访问,支持流式查询和DataFrame操作。数据集采用CC-BY-4.0许可证,使用时需引用泰国SEC IDISC作为主要来源,并注明thaifin-financials的规范化层贡献。数据集目前处于引导阶段,首次修订进行中,并提供按月修订版本以支持版本固定。

thaifin-financials is a labeled long-form financial statement dataset covering financial data of all Thai listed companies (including SET and mai markets), built from public regulatory filings of the Thai Securities and Exchange Commission (SEC) IDISC. The dataset is primarily in Thai and English, focused on the financial domain, with a scale between 100,000 to 1,000,000 records. Data content originates from original regulatory files such as FINANCIAL_STATEMENTS.XLS[X], NOTES.DOC[X], and AUDITOR_REPORT.DOC[X], and each data row can be traced back to specific files via filing_id. The dataset plans to include five Parquet tables: financial_lines (storing financial line items at granularities like company, period, statement, concept), concepts (a curated concept dictionary with optional XBRL references), auditor_reports (structured audit opinions and raw Markdown), notes_text (full Markdown text of financial statement notes), and filings (records of data sources and incremental status). It is suitable for tasks like financial analysis, financial statement standardization, and fundamental research, and can be accessed programmatically via the thaifin library, supporting streaming queries and DataFrame operations. The dataset uses the CC-BY-4.0 license, requiring attribution to the Thai SEC IDISC as the primary source and acknowledgment of thaifin-financials normalization layer contribution. Currently in the bootstrapping phase, the first revision is underway, with monthly revision versions provided to support version pinning.
创建时间:
2026-05-16
原始信息汇总

数据集概述:thaifin-financials

基本信息

  • 数据集名称: thaifin-financials
  • 语言: 泰语 (th)、英语 (en)
  • 标签: 金融、泰国、财务报表、基本面、泰国财务报告准则 (TFRS)、国际财务报告准则 (IFRS)
  • 数据规模: 100,000 < 样本数 < 1,000,000
  • 许可证: CC-BY-4.0(需注明泰国SEC IDISC为原始来源,thaifin-financials为规范化层)

数据来源

  • 主要来源: 泰国证券交易委员会(SEC)的IDISC系统(market.sec.or.th/public/idisc/
  • 数据追溯: 每条数据通过 filing_idfilings.source_url 关联到具体的监管申报文件
  • 原始文件: 申报压缩包中包含财务报表(FINANCIAL_STATEMENTS.XLS[X])、注释(NOTES.DOC[X])、审计报告(AUDITOR_REPORT.DOC[X]

数据模式(Schema)

数据集由五个Parquet表组成:

表名 粒度
financial_lines.parquet 每个 (symbol, period, statement, concept, raw_label_th, consolidation, audit_basis) 一行
concepts.parquet 概念字典,包含可选的XBRL引用
auditor_reports.parquet 结构化审计意见及原始Markdown,每个申报文件一行
notes_text.parquet 财务报表注释的Markdown全文,每个申报文件一行
filings.parquet 数据来源及增量状态信息

数据覆盖范围

  • 覆盖所有泰国上市公司(SET主板 + mai创业板)
  • 数据为标签化的长格式财务报表,基于主要SEC IDISC申报文件构建

库访问方式

  • 可通过 thaifin Python 库访问(库地址:https://github.com/ninyawee/thaifin)
  • 示例用法: python from thaifin import Stock Stock("PTT").capex # 通过DuckDB over HTTP流式获取 Stock("PTT").income_statement # 返回宽表格式的DataFrame

版本与更新

  • 每月CI构建后生成标记版本(格式:YYYY.MM
  • 可在库中固定特定数据版本:thaifin.set_data_revision("2026.05")
  • 当前状态为引导阶段,首次修订进行中
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自泰国证券交易委员会(SEC)的IDISC公开监管备案系统,系统性地收录了所有泰国上市公司(包括SET与mai板块)的财务报告。数据构建通过爬取原始备案文件中的FINANCIAL_STATEMENTS.XLS[X]、NOTES.DOC[X]及AUDITOR_REPORT.DOC[X]等核心文档,经规范化处理后以五张Parquet表格形式存储。每条记录通过filing_id字段与原始备案的source_url建立可追溯映射,确保了数据源的透明性与可验证性,构成一套从原始监管文件到结构化金融信息的完整管线。
特点
该数据集的核心特色在于其细粒度标注的长格式财务数据组织方式,每一行对应一个具体的(股票代码、会计期间、报表类型、会计概念、原始标签泰文、合并状态及审计基础)元组,极大便利了跨公司、跨时期的财务指标提取与对比分析。同时,数据集整合了审计意见的Markdown原文及财务报表附注文本,并计划引入XBRL参考的概念词典,为深入研究泰国会计准则(TFRS/IFRS)下的财务披露细节提供了丰富的语义维度。数据集采用月度CI构建并标记版本,支持精确的历史数据回溯。
使用方法
该数据集主要支持通过配套的thaifin Python库进行便捷访问,用户可实例化Stock对象后直接调用如capex或income_statement等方法,实现基于DuckDB的HTTP流式查询,获取宽表格式的财务数据。在HuggingFace上则可通过加载Parquet文件按需筛选,利用filing_id关联至filings表获取备案元数据。建议用户根据月版本标签(如2026.05)固定数据版本以保证研究可复现性,并遵守CC-BY-4.0许可协议,在成果中注明数据来源于泰国SEC IDISC及thaifin-financials规范化层。
背景与挑战
背景概述
在金融科技与自然语言处理交叉领域,结构化财务报表数据是量化分析、风险评估与智能投资决策的基石。然而,新兴市场尤其是东南亚地区的财务数据往往分散于非结构化监管文件中,缺乏统一、机器可读的标准化数据集。在此背景下,thaifin-financials数据集应运而生,由独立开发者ninyawee主导构建,并于2025年首次发布。该数据集聚焦于泰国证券交易所(SET及mai板块)所有上市公司的财务报表,核心解决从泰国证监会(SEC)IDISC原始监管备案文件向高质量、可复用长格式结构化数据的转化问题。通过整合财务行项目、审计意见、附注文本及备案溯源信息,其具备每月自动化构建的持续更新机制。该数据集对东南亚金融NLP、跨境财务分析及新兴市场会计研究具有重要推进作用,为传统金融数据基准测试提供了稀缺的泰语-英语双语标注资源。
当前挑战
该数据集面临多维度挑战。领域问题层面,首先需克服泰语财务术语在IFRS与TFRS双重框架下的语义歧义与标准化难题,尤其是原始XLS/XLSX文件中概念标签与XBRL分类的映射偏差;其次,审计意见与附注文本的非结构化特征要求设计兼顾段落层级语义与表格结构的抽取策略。构建过程中,挑战在于每月增量更新的合规性——需解析SEC IDISC动态发布的多种备案版本、校验财务报表数字勾稽关系,并确保filing_id至原始URL的可追溯性不被破坏;此外,五张parquet表的增量合并需协调各表间时间戳与代码库的版本锁定,直面CI/CD流程中高频数据变动的持续集成压力。
常用场景
经典使用场景
在金融与会计交叉研究领域,thaifin-financials数据集为分析泰国上市公司财务行为提供了标准化、细粒度的数据基底。其最经典的使用场景是构建公司层面的财务指标时间序列,例如通过解析'financial_lines.parquet'中每只股票在特定报告期内的'capex'(资本支出)数据,研究者可以轻松复现现金流预测、盈利质量评估等经典财务分析模型。该数据集以长格式(long-format)组织,每条记录皆追溯至泰国SEC IDISC的原始监管备案文件,确保了数据来源的权威性和可审计性。借助'thaifin'库的API,如Stock("PTT").income_statement,用户能够直接获取宽表形式的损益表,极大简化了跨公司、跨期间的财务数据比对与面板数据分析流程。
衍生相关工作
围绕thaifin-financials数据集已涌现一系列衍生性学术与工程工作。在自然语言处理领域,'notes_text.parquet'中的附注文本被用于训练泰语金融领域的大语言模型,通过对比不同年份附注的语义变化来预测公司重大事件(如债务违约或并购)。在金融科技方面,基于该数据集构建的'thaifin'库催生了开源量化回测框架,研究者可无缝调用公司财务数据与市场行情进行策略仿真。此外,该数据集与泰国证券交易所的股票行情数据联动,衍生出关于'财务报告迟滞性对市场微观结构影响'的实证研究,进一步拓展了新兴市场信息传递效率的分析视角。
数据集最近研究
最新研究方向
基于泰国证券交易委员会(SEC)IDISC官方披露的原始财务文件,thaifin-financials数据集为泰国上市公司(SET及mai板块)提供了标准化、细颗粒度的长格式财务报表,涵盖财务行项目、概念映射、审计意见及附注文本等多元表格。该数据集不仅支持通过DuckDB进行高效的HTTP流式查询与Python库交互,更以CC-BY-4.0许可开放,为东南亚金融市场的量化分析、跨期财务比较及会计信息挖掘提供了高质量的数据基础设施。在当前全球金融数据民主化与监管科技(RegTech)加速发展的背景下,该数据集的发布填补了泰语地区结构化金融数据的空白,推动了新兴市场金融语言模型与财务异常检测的前沿研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作