IPO-Dataset

Name: IPO-Dataset
Creator: 佐治亚理工学院; 赛大学; 杜克大学
Published: 2026-05-28 00:36:39
License: 暂无描述

arXiv2026-05-28 更新2026-05-29 收录

下载链接：

https://pypi.org/project/ipo-mine/

下载链接

链接失效反馈

官方服务：

资源简介：

IPO-Dataset是一个大规模、多模态、按章节结构化的数据集，由佐治亚理工学院等机构创建，专注于美国证券交易委员会（SEC）的首次公开募股（IPO）申报文件。该数据集涵盖1994年至2026年间的109,690份IPO申报文件及修订案，包含超过76,000张图像，文本部分通过解析目录实现章节对齐，确保了结构一致性。数据集构建依托IPO-Toolkit工具包，实现了从EDGAR平台的文件下载、文本解析到图像提取的自动化流程，并经过LLM辅助验证和人工审核以保证质量。该数据集旨在支持对长文档、多模态金融文本的分析，应用于评估误导性图表、研究跨行业披露实践以及推动多模态模型在真实世界监管文档中的推理能力。

IPO-Dataset is a large-scale, multimodal, chapter-structured dataset developed by institutions including the Georgia Institute of Technology, focusing on Initial Public Offering (IPO) registration filings submitted to the U.S. Securities and Exchange Commission (SEC). This dataset covers 109,690 IPO registration filings and their amendments spanning 1994 to 2026, containing over 76,000 images. The textual portions are chapter-aligned via table-of-contents parsing, ensuring structural consistency. The dataset is constructed using the IPO-Toolkit, which enables an automated workflow from file downloading on the EDGAR platform, text parsing to image extraction. Quality assurance is implemented via LLM-aided validation and manual review. This dataset is intended to support analyses of long-document multimodal financial texts, with applications including evaluating misleading charts, researching cross-industry disclosure practices, and advancing the reasoning capabilities of multimodal models in real-world regulatory documents.

提供机构：

佐治亚理工学院; 赛大学; 杜克大学

创建时间：

2026-05-28

搜集汇总

数据集介绍

构建方式

IPO-Dataset的构建依托于IPO-Toolkit开源框架，该框架从SEC EDGAR数据库下载S-1和F-1形式的IPO文件，并支持ASCII与HTML两种格式。通过解析文件目录（TOC）识别章节名称与页码，将长篇多模态文件分割为标准化章节文本。对于图像，首先由人工标注1,000余张种子图像以定义图表、信息图、标志、地图及其他五类语义类别，随后利用YOLOv8-small模型进行大规模分类，并通过集成多模态大语言模型（MLLMs）以多数投票机制验证标签。针对图表图像，进一步通过约束性提示提取结构化视觉属性，如轴配置与3D效果等。整个流程包含自动化质量校验与定向人工审查，确保章节边界完整性与图像分类准确性。

特点

该数据集涵盖1994年至2026年间超过109,000份IPO文件及其修订版本，包含76,000余张已分类图像，其中图表逾17,000张。其核心特点在于章节级别的结构化组织：文本被划分为诸如“风险因素”、“法律事项”等标准化区块，并通过模糊字符串匹配统一标签，从而支持跨发行商与时间维度的一致性分析。图像分类强调语义意图，区分量化图表与非量化视觉元素，并特别关注误导性图表特征（如截断坐标轴、双Y轴与3D透视图）。文本分析揭示语言标准化增强而语义多样性扩大的分化趋势，图像则表现出日益增长的视觉异质性，这一模态差异为多模态模型的鲁棒性评估提供了独特挑战。

使用方法

数据集以CC-BY-4.0许可公开，提供代码与交互式Web界面。用户可通过Python工具包本地下载与解析文件，获取章节对齐文本及关联图像元数据（如受理号、提交日期与SIC行业分类）。Web界面支持按公司、文件、章节与图像进行过滤，内置SQL控制台允许自定义查询，例如联合图像类别与图表类型属性以筛选特定视觉配置。基准任务包括章节提取准确性评估与图表误导性评分，采用人工标注的5分Likert量表作为参考标准。研究者可复现跨行业披露模式分析，或评估MLLMs在真实监管文件上的推理对齐性，适用于金融NLP、视觉推理与文档理解等方向的实验验证。

背景与挑战

背景概述

首次公开募股（IPO）文件是私营企业迈向公开市场时向美国证券交易委员会（SEC）提交的关键监管文档，内容涵盖企业运营、财务状况及风险暴露等核心信息。然而，这类文档动辄超过50万词元，融合了文本、表格与图像等异质内容，且不同发行主体与年份间的章节排序、标签与格式千差万别，缺乏标准化的结构组织。由佐治亚理工学院 Michael Galarnyk 与 Siddharth Lohani 领衔的团队于2026年推出了IPO-Dataset，该数据集基于自主构建的IPO-Toolkit工具包，从SEC EDGAR系统下载并解析了1994年至2026年间超过10.9万份IPO文件，完成了带有章节标注的文本与逾7.6万张图像的规模化提取。这一资源的问世填补了金融领域缺乏针对IPO文件的大规模、标准化、多模态数据集的空白，为基于现代语言模型与多模态模型研究监管文档的章节级语义与视觉特征提供了坚实基础。

当前挑战

IPO文件分析面临的核心挑战在于极端文档长度与结构异质性：文件常超50万词元，直接端到端处理对大型语言模型既计算昂贵又不可靠，即便输入未超出上下文窗口，模型在如此长度下的表现仍不稳定；同时，章节名称、顺序及格式因发行方与年份而异，可靠的章节级提取需依赖目录解析而非全文处理，而目录解析本身又需应对历史ASCII格式与现代HTML格式并存的困境。在数据集构建中，挑战来自三个方面：一是文档格式演进——早期电磁文件为纯文本ASCII（1994-1999年），自2000年起HTML格式允许嵌入图像，导致原始词元数因标记而虚增，需精细区分；二是图像分类的模糊性——需从76,104张图像中区分图表、信息图、标志、地图及杂项五类，其中信息图与图表、表格与信息图之间的边界常因视觉相似而混淆，人工标注的 Krippendorff's α 总体为0.911，但信息图与杂项之间的 α 仅0.793；三是误导性图表检测的领域难题——图表在IPO文件中常呈现截断坐标轴、双y轴、3D透视等设计，而最先进的多模态模型在判断图表误导性时与人类专家标注的评分常出现显著偏差，例如在3D柱状图上人类平均评分为3.47（1=高度准确，5=高度误导），而模型在无思维链提示下的平均评分仅为3.13，差距明显。

常用场景

经典使用场景

在金融文本与多模态分析领域，IPO-Dataset被誉为一座横跨三十余年的结构化桥梁，连接了晦涩冗长的监管披露与可计算的洞察世界。其最经典的用途在于为长达数十万词元的IPO招股说明书提供标准化的章节级文本与图像数据，使研究者得以摆脱对10-K等标准化文档的路径依赖，转而面对更具结构异质性与视觉多样性的IPO档案。数据集涵盖超过10.9万份S-1与F-1申报文件及其修订版本，内嵌逾7.6万张分类图像，其规模与时间跨度使其成为探索企业信息披露模式演变、行业间视觉与文本实践差异的理想沙盘。尤为重要的是，该数据集配合开源工具包IPO-Toolkit，实现了从EDGAR原始文件到章节对齐、图像提取与元数据关联的全流程自动化，为后续可复现的大规模金融文档分析奠定了坚实基础。

衍生相关工作

依托IPO-Dataset的结构化厚度与多模态纵深，学术界已在其基础上衍生出一系列具有里程碑意义的后续探索。在图表理解领域，该数据集为ChartQA-Pro等新一代视觉推理基准提供了真实金融场景下的多样化样本，揭示了模型在面对随时间推移视觉多样性持续攀升的图表生态时性能急剧下滑的现象。在视觉误导检测方面，启发了REVEAL等工作的多轮危害评估框架，推动了对误导性可视化在复杂叙事背景下的检测难度研究。在金融多模态大模型评测维度，MME-Finance、FinChart-Bench与FinMME等基准均在其设计理念上借鉴了IPO-Dataset的行业分层抽样与视觉属性结构化编码思路。更深远的是，该数据集所揭示的文本标准化与视觉异质性并行演化的现象，直接催生了一系列关于跨模态信息披露趋势的计量经济学与计算语言学交叉研究，将企业披露行为的量化分析从纯文本领域推向了真正的多模态前沿。

数据集最近研究