AceParse

github2024-09-14 更新2024-09-15 收录

下载链接：

https://github.com/JHW5981/AceParse

下载链接

链接失效反馈

官方服务：

资源简介：

AceParse是一个综合数据集，包含多种结构化文本，如公式、表格、算法、列表以及嵌入数学表达式的句子等，用于学术文献解析。

AceParse is a comprehensive dataset containing various structured texts such as formulas, tables, algorithms, lists, and sentences embedded with mathematical expressions, which is designed for academic literature parsing.

创建时间：

2024-08-31

原始信息汇总

AceParse 数据集概述

概述

AceParse 是一个综合性的数据集，包含多种结构化文本，如公式、表格、算法、列表以及嵌入数学表达式的句子等。该数据集旨在用于学术文献解析。

数据集结构

数据集的组织结构如下：

dataset/ ├── downloads/ # 原始源文件 ├── TEX/ # 从源文件中提取的 .tex 文件 ├── SYNS_TEX/ # 合成的 .tex 文件 ├── SYNS_PDF/ # 编译合成 .tex 后的 pdf 文件 ├── IMAGE/ # 从合成 .pdf 中裁剪出的 .png 图像 ├── data/ │ ├── images/ # 图像路径 │ └── labels/ # tex 标签路径 └── samples # AceParse 的样本

数据生成流程

下载源文件并提取 LaTeX 代码。
合成 LaTeX 代码并编译生成 PDF。
从 PDF 中裁剪出图像。
分割数据集为训练、验证和测试集。

数据加载与显示

AceParse 数据集已上传至 Hugging Face，可通过以下代码直接导入： python from datasets import load_dataset ds = load_dataset("jihuawei/AceParse", split=train)

训练与推理

训练代码示例： python python ./model/train_aceparser.py --train_img_paths ./dataset/data/images/train_images.txt --train_label_paths ./dataset/data/labels/train_labels.txt --eval_img_paths ./dataset/data/images/val_images.txt --output_dir ./model/weights
推理代码示例： python from transformers import AutoProcessor, AutoModelForCausalLM model_id = "jihuawei/AcaParser" acaparser_model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True).eval().to(cuda:0)

引用

@misc{huawei2024aceparse, title={AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing}, author={Huawei Ji and Cheng Deng and Bo Xue and Zhouyang Jin and Jiaxin Ding and Xiaoying Gan and Luoyi Fu and Xinbing Wang and Chenghu Zhou}, year={2024}, eprint={2409.}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

AceParse数据集的构建过程经过精心设计，涵盖了从原始学术文献的下载、LaTeX源码的提取、合成LaTeX代码的生成、PDF文件的编译，到最终文档图像的裁剪和数据集的分割等多个步骤。首先，通过运行`download_source.py`脚本，从指定的arXiv ID列表中下载源文件，并提取其中的LaTeX代码。随后，利用`synthesize_latex.py`脚本生成合成的LaTeX代码，并通过`generate_pdfs.sh`脚本编译成PDF文件。最后，通过`crop_images.py`脚本裁剪PDF文件生成图像，并通过`split_dataset.py`脚本将数据集分割为训练集、验证集和测试集。

特点

AceParse数据集以其多样性和综合性著称，包含了多种类型的结构化文本，如公式、表格、算法、列表以及嵌入数学表达式的句子等。这些文本不仅涵盖了广泛的学术领域，还通过LaTeX标记进行了精细的解析，使得数据集在学术文献解析任务中具有极高的应用价值。此外，数据集的构建过程确保了数据的高质量和一致性，为研究人员提供了可靠的实验基础。

使用方法

AceParse数据集可以通过Hugging Face平台直接导入，使用`load_dataset`函数即可加载。加载后，用户可以通过PIL库将二进制图像转换为PIL图像，并使用Matplotlib库进行显示。此外，数据集还提供了详细的训练和推理代码，用户可以通过运行`train_aceparser.py`脚本进行模型训练，并通过`AutoModelForCausalLM`类进行推理。这些代码示例为研究人员提供了便捷的工具，使得他们能够快速上手并应用AceParse数据集进行学术文献解析任务。

背景与挑战

背景概述

AceParse数据集是由Huawei Ji等人于2024年创建，旨在为学术文献解析提供一个全面且多样化的数据集。该数据集包含了多种结构化文本，如公式、表格、算法、列表以及嵌入数学表达式的句子等。主要研究人员包括Huawei Ji、Cheng Deng等，他们来自多个知名机构，如复旦大学和上海交通大学。AceParse的核心研究问题是如何高效且准确地解析学术文献中的复杂结构化文本，这对于提升自然语言处理和机器学习在学术领域的应用具有重要意义。该数据集的发布不仅丰富了学术文献解析的研究资源，也为相关领域的技术进步提供了坚实的基础。

当前挑战

AceParse数据集在构建过程中面临多项挑战。首先，学术文献中的结构化文本种类繁多，包括复杂的数学公式和嵌套的表格，这增加了数据标注和解析的难度。其次，数据集的构建需要从原始学术文献中提取和合成LaTeX代码，这一过程涉及多个步骤，如下载源文件、合成LaTeX代码、生成PDF和裁剪图像，每一步都可能引入误差。此外，数据集的多样性和复杂性要求高效的算法和模型来处理，以确保解析结果的准确性和可靠性。这些挑战不仅影响了数据集的质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

AceParse数据集在学术文献解析领域展现了其经典应用。该数据集包含了多种结构化文本，如公式、表格、算法和嵌入数学表达式的句子等，为研究人员提供了丰富的资源。通过解析这些复杂的文本结构，AceParse能够帮助学者们更高效地提取和理解学术文献中的关键信息，从而推动相关领域的研究进展。

衍生相关工作

AceParse数据集的发布催生了多项相关研究工作。例如，基于AceParse的解析结果，研究人员开发了多种学术文献解析模型，这些模型在文本识别、结构化信息提取和复杂公式解析等方面表现出色。此外，AceParse还启发了在学术文献自动化处理和信息提取领域的进一步研究，推动了相关技术的创新和发展。

数据集最近研究