AceParse

Name: AceParse
Creator: 上海交通大学
Published: 2024-09-16 14:06:34
License: 暂无描述

arXiv2024-09-16 更新2024-09-18 收录

下载链接：

https://github.com/JHW5981/AceParse

下载链接

链接失效反馈

官方服务：

资源简介：

AceParse是由上海交通大学和中国科学院共同创建的综合性学术文献解析数据集，旨在解决学术文献中多种结构化文本的解析问题。该数据集包含500,000条结构化文本，涵盖公式、表格、列表、算法等多种类型，使用LaTeX标记语言进行标注。数据集的创建过程包括文档收集、数据合成和边界检测，确保了数据的高质量和多样性。AceParse主要应用于学术文献解析领域，旨在提升模型对复杂结构化文本的解析能力。

AceParse is a comprehensive academic literature parsing dataset jointly created by Shanghai Jiao Tong University and the Chinese Academy of Sciences, which aims to solve the parsing problems of various structured texts in academic literature. This dataset contains 500,000 structured text entries, covering multiple types such as formulas, tables, lists, algorithms and more, and is annotated using the LaTeX markup language. The dataset creation process includes document collection, data synthesis and boundary detection, which ensures the high quality and diversity of the data. AceParse is mainly applied in the field of academic literature parsing, aiming to improve the model's parsing ability for complex structured texts.

提供机构：

上海交通大学

创建时间：

2024-09-16

原始信息汇总

AceParse 数据集概述

概述

AceParse 是一个综合性的数据集，包含多种结构化文本，如公式、表格、算法、列表以及嵌入数学表达式的句子等。该数据集旨在用于学术文献解析。

数据集结构

数据集的组织结构如下：

dataset/ ├── downloads/ # 原始源文件 ├── TEX/ # 从源文件中提取的 .tex 文件 ├── SYNS_TEX/ # 合成的 .tex 文件 ├── SYNS_PDF/ # 编译合成 .tex 后生成的 pdf 文件 ├── IMAGE/ # 从合成 .pdf 中裁剪出的 .png 图像 ├── data/ │ ├── images/ # 图像路径 │ └── labels/ # tex 标签路径 └── samples # AceParse 的样本

数据生成流程

下载源文件并提取 LaTeX 代码。
合成 LaTeX 代码并生成 PDF 文件。
从 PDF 文件中裁剪出图像。
分割数据集，生成训练、验证和测试集的图像路径及对应的解析文本。

数据加载与显示

AceParse 数据集已上传至 huggingface🤗。可以使用以下代码直接导入数据集： python from datasets import load_dataset from PIL import Image import io import numpy as np import matplotlib.pyplot as plt

ds = load_dataset("jihuawei/AceParse", split=train)

将二进制图像转换为 PIL 图像

image = Image.open(io.BytesIO(ds[0][image]))

获取 numpy 图像

image_array = np.array(image)

显示图片

plt.imshow(image_array) plt.axis(off) plt.show()

打印标签

print("Label:", label)

引用

@misc{huawei2024aceparse, title={AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing}, author={Huawei Ji and Cheng Deng and Bo Xue and Zhouyang Jin and Jiaxin Ding and Xiaoying Gan and Luoyi Fu and Xinbing Wang and Chenghu Zhou}, year={2024}, eprint={2409.10016}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

AceParse数据集的构建过程分为三个主要阶段：文档收集、数据合成和边界检测。首先，通过使用ArXiv ID从Papers with Code中收集了10,000个开放访问的LaTeX源文件，涵盖了计算机科学的102个子领域。随后，应用规则技术结合领域特定知识对源代码进行清理，以确保内容的一致性和准确性。最后，通过随机组合提取的结构化文本生成新的LaTeX代码，并使用pdflatex编译成PDF文件，确保所有结构正确渲染。边界检测阶段则使用像素级方法精确提取文献图像，确保高质量的数据集构建。

使用方法

AceParse数据集主要用于训练和评估学术文献解析模型。用户可以通过GitHub获取该数据集，并将其用于多模态模型的微调，以提高模型对复杂结构文本的解析能力。具体使用时，可以将数据集分为训练集、验证集和测试集，采用如AdamW优化器和线性学习率调度策略进行模型训练。通过对比不同解析方法的性能，AceParse数据集为学术文献解析领域的研究提供了有力的支持。

背景与挑战

背景概述

随着数据驱动的人工智能发展，研究焦点已从模型驱动转向提升数据质量。学术文献作为关键数据类型，主要以PDF格式存储，需解析为文本以进行进一步处理。然而，解析学术文献中的多样化结构文本仍具挑战，因缺乏涵盖多种文本结构的数据集。AceParse数据集由上海交通大学和中国科学院的研究团队创建，旨在支持广泛结构文本的解析，包括公式、表格、列表、算法及嵌入数学表达的句子。该数据集通过LaTeX标记语言精确描述文本结构，是首个针对学术文献多样化结构内容的开源数据集，推动了学术文献解析领域的发展。

当前挑战

AceParse数据集面临的挑战包括：首先，现有基于OCR的方法主要关注字符识别，导致结构信息丢失；其次，模块化方法虽能处理预定义内容类型，但对复杂结构如算法和列表的处理能力有限；再者，现有端到端解析模型如Nougat，训练于狭窄的专有数据集，限制了其在多样化结构中的泛化能力；最后，现有开源数据集多限于字符级解析或特定内容类型，未能全面覆盖学术文档中的多样化结构元素。构建过程中，随机组合不同结构内容以生成新LaTeX文件的挑战在于确保文件成功编译，避免因内容随机性导致的编译错误。

常用场景

经典使用场景

AceParse数据集在学术文献解析领域中具有经典的使用场景，主要用于训练和评估多模态模型，以解析学术文献中的多样化结构文本，如公式、表格、列表和算法等。通过提供丰富的标注数据，AceParse支持模型学习如何准确地从PDF格式中提取和重构这些结构化信息，从而为学术文献的自动化处理奠定了基础。

解决学术问题

AceParse数据集解决了学术文献解析中的多个关键问题，包括PDF格式中文本结构信息的丢失、现有数据集对多样化结构文本覆盖不足等。通过提供全面且多样化的结构文本标注，AceParse显著提升了模型的泛化能力和解析精度，推动了学术文献自动化处理技术的发展，为相关研究提供了高质量的数据支持。

实际应用

AceParse数据集在实际应用中展现出广泛的前景，特别是在学术出版、科研数据管理和知识图谱构建等领域。例如，学术出版商可以利用AceParse训练的模型自动解析和格式化学术论文，提高出版效率；科研机构则可以借助该数据集提升数据管理系统的智能化水平，实现科研数据的自动提取和整合。

数据集最近研究