gtfintechlab/ipo-tables

Name: gtfintechlab/ipo-tables
Creator: gtfintechlab
Published: 2026-04-11 07:18:43
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/gtfintechlab/ipo-tables

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: IPO Tables (HTML) — Random Yearly Sample tags: - sec - ipo - s-1 - tables - html - finance - information-extraction task_categories: - text-classification - other language: - en license: mit size_categories: - 1K<n<10K --- # IPO Tables (HTML) — Random Sample Card A curated table extraction dataset from SEC filing documents, with raw table HTML plus provenance metadata. ## What This Dataset Is This is a **random sample targeting 100 extracted tables per year** from filings in **1994–2026**. - Middle years are densely represented at 100 tables/year. - Edge years can be lower where fewer valid tables were available. - Tables are extracted directly from filing source files and stored as raw HTML. ## Full Dataset Link The full dataset is available here: **https://drive.google.com/drive/folders/16hFhoXy52o9C2dARpxmBHQ6QCZjvum6S?usp=sharing** ## Snapshot Stats - Year range: 1994–2026 (33 years) - Total extracted tables: 3,099 - Years with 100 tables: 30 - Underfilled edge years: - 1994: 35 - 1995: 64 - 2026: 0 ## Files - `sampled_table_html.csv` - `sampled_table_html.parquet` - `year_summary.csv` - `dataset_info.json` ## Row Schema Each row contains: - `sample_id`: unique row id - `target_year`: sampled year bucket - `source_file`: source filing path used for extraction - `source_filename`: filing filename - `source_extension`: file extension (`.htm`, `.html`, `.txt`) - `cik`: parsed company identifier (when available) - `accession_from_filename`: accession-like id parsed from filename - `table_pick_index_in_filing`: selected table index in filing - `table_start_char`: char offset start in source text - `table_end_char`: char offset end in source text - `table_html`: raw extracted table HTML - `table_html_char_length`: HTML character length ## Intended Use - Table parsing benchmarks - Financial document IE experiments - HTML-to-structured-table extraction - LLM/RAG evaluation on filing tables ## Limitations - Extraction is HTML-pattern based; malformed markup can reduce recall. - Some provenance fields depend on filename conventions. - Edge years may contain fewer tables than the 100 target. ## Citation If you use this sample card dataset, please cite the project/repository and include the full dataset link above.

提供机构：

gtfintechlab

搜集汇总

数据集介绍

构建方式

在金融文档信息抽取领域，IPO Tables (HTML) 数据集以系统化的方式构建而成。该数据集从美国证券交易委员会（SEC）的公开申报文件中，针对1994年至2026年间的S-1等表格，每年随机抽取约100个数据表。提取过程直接基于申报文件的原始HTML源码，通过模式匹配方法定位表格的起始与结束字符偏移量，并完整保留其HTML结构。为确保时间跨度的代表性，数据集在中间年份实现了每年100个表格的密集采样，而边缘年份则因可用有效表格数量限制，样本量有所调整，整体构成了一个涵盖三十余年、总计三千余个表格的时序性样本集合。

特点

该数据集的核心特征在于其高度的真实性与丰富的元数据。所有表格均以原始HTML格式保存，完整呈现了申报文档中的实际标记与结构，为研究表格解析算法提供了真实的测试基准。数据集附带了详尽的溯源信息，包括公司标识符（CIK）、申报文件路径、表格在文件中的索引位置以及字符级定位坐标，这为追溯数据来源和分析表格上下文创造了条件。其时间跨度长达三十三年，能够支持对IPO相关表格格式与内容演变的纵向研究，尤其适用于评估大语言模型或检索增强生成系统在金融文档结构化信息抽取任务上的性能。

使用方法

研究人员可利用此数据集开展多方面的实验与应用。数据集以CSV和Parquet格式提供，便于通过`pandas`等工具进行加载与分析。主要字段`table_html`包含了待解析的原始表格内容，而`cik`、`source_filename`等元数据则可用于样本筛选与分组。该数据集可直接服务于表格解析基准测试，评估不同算法从HTML到结构化数据（如DataFrame）的转换准确率。在金融信息抽取实验中，它可作为训练或测试集，用于训练模型识别表格中的财务指标与关系。同时，其时序特性也支持构建基于文档检索的问答系统评估框架，检验系统从历史申报表格中提取关键信息的能力。

背景与挑战

背景概述

在金融信息抽取领域，美国证券交易委员会（SEC）的公开文件，尤其是首次公开募股（S-1）相关文档，是研究公司财务与运营状况的宝贵数据源。IPO Tables (HTML) 数据集由相关研究机构于近年构建，旨在从1994年至2026年间的SEC申报文件中系统性地抽取表格数据，并以原始HTML格式保存。该数据集的核心研究问题聚焦于如何高效、准确地从非结构化的金融文档中提取结构化表格信息，以支持自动化财务分析、信息检索及大语言模型评估。其按年度随机采样的设计，为研究表格解析算法在长时间跨度下的泛化能力提供了基准，对推动金融自然语言处理与文档智能领域的发展具有显著影响力。

当前挑战

该数据集致力于解决金融文档信息抽取中表格识别与结构解析的核心挑战。SEC文件格式多样、历史文档结构不一，且表格常嵌入复杂HTML标记中，这对自动化提取的准确性与鲁棒性构成了严峻考验。在构建过程中，研究人员面临多重困难：基于HTML模式的提取方法对标记规范性高度敏感，文档中的畸形标记可能导致召回率下降；部分元数据字段依赖于不稳定的文件名约定，影响了数据溯源的完整性；此外，在目标年份范围的边缘（如早期1994年与未来2026年），有效表格数量不足，难以达到预设的年度采样目标，导致数据分布存在偏差。这些挑战共同凸显了在真实、异构的金融文档流中构建高质量基准数据集的复杂性。

常用场景

经典使用场景

在金融信息提取领域，IPO Tables数据集为表格解析任务提供了标准化基准。该数据集从美国证券交易委员会（SEC）的S-1等IPO申报文件中提取原始HTML表格，覆盖1994年至2026年的广泛时间跨度。研究者可利用其结构化表格数据，训练和评估自动化表格提取模型，特别是在处理复杂财务文档时，能够有效模拟真实世界中的表格布局与语义信息。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在表格提取与金融信息检索方向。例如，基于HTML模式匹配的表格结构重建方法、结合大型语言模型的表格内容理解研究，以及面向SEC文档的检索增强生成（RAG）系统评估框架。这些工作不仅深化了表格解析的技术边界，也促进了金融领域文档智能化处理工具的开发与应用。

数据集最近研究