SmolDocling-256M-preview
收藏arXiv2025-03-15 更新2025-03-18 收录
下载链接:
https://huggingface.co/ds4sd/SmolDocling-256M-preview
下载链接
链接失效反馈官方服务:
资源简介:
SmolDocling-256M-preview是IBM Research和HuggingFace共同构建的一个文档理解数据集,该数据集为公开源数据集,包含了图表、表格、公式和代码识别等任务所需的数据。数据集由来自CommonCrawl、Wikipedia和商业相关文档的PDF文档构成,通过一系列处理步骤增加了弱标注信息,以支持文档元素如方程、表格、代码和图表的视觉识别和结构化理解。该数据集旨在促进文档转换和结构识别任务的研究,解决文档理解中的格式多样性和布局复杂性挑战。
SmolDocling-256M-preview is a document understanding dataset jointly developed by IBM Research and HuggingFace. As an open-access public dataset, it includes data required for tasks such as chart recognition, table recognition, formula recognition and code recognition. The dataset is constructed from PDF documents sourced from CommonCrawl, Wikipedia and commercially relevant documents, with a series of processing steps applied to add weakly annotated information to support visual recognition and structured understanding of document elements including equations, tables, code and charts. This dataset aims to promote research on document conversion and structure recognition tasks, and address the challenges of format diversity and layout complexity in document understanding.
提供机构:
IBM Research, HuggingFace
创建时间:
2025-03-15
搜集汇总
数据集介绍

构建方式
SmolDocling-256M-preview数据集的构建基于Hugging Face的SmolVLM架构,采用了一种端到端的多模态文档转换方法。该数据集通过生成DocTags,一种新的通用标记格式,捕捉文档页面中的所有元素及其上下文和位置信息。数据集的构建过程包括对现有文档预训练数据集的增强,新增了代码、公式和图表等任务的注释,并创建了全页面的真实数据,结合了布局、表格结构、代码、图表和公式等关键注释特征。此外,还从所有训练数据集中提取了指令数据集,以支持模型的训练和评估。
特点
SmolDocling-256M-preview数据集的特点在于其超紧凑的视觉语言模型架构,仅包含256M参数,显著降低了计算复杂度。该数据集不仅涵盖了常见的文档类型,如商业文档、学术论文、技术报告和专利,还扩展到了表格、代码、公式和图表等复杂元素的识别。数据集中的DocTags格式能够高效地表示文档的全部内容和布局特征,支持文档元素的类型、位置和内容的统一表示。此外,数据集还提供了丰富的注释信息,支持多任务学习,增强了模型的泛化能力。
使用方法
SmolDocling-256M-preview数据集的使用方法主要包括模型的训练和评估。在训练阶段,模型采用课程学习策略,逐步适应文档转换任务,确保快速收敛。首先,将DocTags作为标记加入分词器中,冻结视觉编码器并训练剩余网络以适应新的输出格式。随后,解冻视觉编码器并在预训练数据集上进行训练,最后在所有可用数据集上进行微调。在评估阶段,模型在多个任务上进行性能测试,包括文本识别、布局分析、表格结构识别和图表提取等。通过与其他视觉语言模型的对比,验证了SmolDocling在文档转换任务中的优越性能。
背景与挑战
背景概述
SmolDocling-256M-preview数据集由IBM Research和HuggingFace的研究团队于2025年3月14日发布,旨在解决多模态文档转换的复杂问题。该数据集的核心研究问题是通过生成一种新的通用标记格式DocTags,捕捉文档页面中的所有元素及其上下文和位置信息。与依赖大型基础模型或手工构建的多个专用模型流水线的现有方法不同,SmolDocling提供了一种端到端的转换方案,能够在仅256M参数的视觉-语言模型中准确捕捉文档元素的内容、结构和空间位置。该数据集涵盖了多种文档类型,包括商业文档、学术论文、技术报告、专利和表格,显著扩展了传统科学论文的范畴。此外,研究团队还贡献了用于图表、表格、公式和代码识别的新颖公开数据集。实验结果表明,SmolDocling在性能上可与规模大27倍的视觉-语言模型相媲美,同时大幅降低了计算需求。
当前挑战
SmolDocling-256M-preview数据集在构建和应用过程中面临多重挑战。首先,文档转换任务的复杂性源于文档布局和风格的多样性,尤其是PDF格式的语义解析困难。其次,现有的多模态训练数据集在覆盖范围和标注质量上存在显著不足,难以支持鲁棒的文档理解模型训练。此外,依赖大型视觉-语言模型(LVLM)可能引入幻觉问题,并消耗大量计算资源,导致质量和成本上的不切实际。在数据集构建过程中,研究团队还面临如何高效标注文档元素、如何统一不同文档类型的标注格式,以及如何生成高质量的合成数据以增强模型泛化能力等技术难题。这些挑战需要通过创新的标注方法、数据增强技术和模型优化策略来逐一克服。
常用场景
经典使用场景
SmolDocling-256M-preview 数据集在文档理解与转换领域具有广泛的应用场景,尤其是在处理复杂文档布局和多样化文档类型时表现出色。该数据集通过生成 DocTags 这一通用标记格式,能够捕捉文档页面中的所有元素及其上下文和位置信息。其经典使用场景包括对商业文档、学术论文、技术报告、专利和表格等文档类型的全面解析与转换,显著提升了文档结构识别的准确性和效率。
衍生相关工作
SmolDocling-256M-preview 数据集的推出催生了一系列相关研究工作,特别是在文档理解与多模态模型领域。基于该数据集的研究工作包括对文档布局分析、表格结构识别、图表理解和公式解析等任务的深入探索。此外,该数据集还启发了对紧凑型视觉-语言模型的进一步优化,推动了资源高效的多任务文档理解模型的发展。相关经典工作如 DocOwl 2、GOT 和 Qwen2.5-VL 等模型,均在文档结构识别与转换任务中借鉴了 SmolDocling 的设计理念与数据支持。
数据集最近研究
最新研究方向
近年来,随着多模态大模型(LVLMs)在文档理解领域的广泛应用,SmolDocling-256M-preview数据集的研究方向主要集中在端到端的多模态文档转换任务上。该数据集通过引入DocTags这一新型通用标记格式,能够全面捕捉文档页面中的内容、结构和空间位置信息,显著提升了文档转换的准确性和完整性。与依赖大型基础模型或手工构建的多模型流水线相比,SmolDocling在仅256M参数的情况下,展现出与更大规模模型相媲美的性能,同时大幅降低了计算资源的需求。此外,该数据集还涵盖了图表、表格、公式和代码识别等任务,填补了现有公开数据集的空白,为多模态文档理解模型的训练提供了高质量的开放数据支持。这一研究方向的进展不仅推动了文档转换技术的创新,还为资源受限环境下的高效文档处理提供了新的解决方案。
相关研究论文
- 1SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversionIBM Research, HuggingFace · 2025年
以上内容由遇见数据集搜集并总结生成



