AceParse
收藏AceParse 数据集概述
概述
AceParse 是一个综合性的数据集,包含多种结构化文本,如公式、表格、算法、列表以及嵌入数学表达式的句子等。该数据集旨在用于学术文献解析。
数据集结构
数据集的组织结构如下:
dataset/ ├── downloads/ # 原始源文件 ├── TEX/ # 从源文件中提取的 .tex 文件 ├── SYNS_TEX/ # 合成的 .tex 文件 ├── SYNS_PDF/ # 编译合成 .tex 后的 pdf 文件 ├── IMAGE/ # 从合成 .pdf 中裁剪出的 .png 图像 ├── data/ │ ├── images/ # 图像路径 │ └── labels/ # tex 标签路径 └── samples # AceParse 的样本
数据生成流程
- 下载源文件并提取 LaTeX 代码。
- 合成 LaTeX 代码并编译生成 PDF。
- 从 PDF 中裁剪出图像。
- 分割数据集为训练、验证和测试集。
数据加载与显示
AceParse 数据集已上传至 Hugging Face,可通过以下代码直接导入: python from datasets import load_dataset ds = load_dataset("jihuawei/AceParse", split=train)
训练与推理
-
训练代码示例: python python ./model/train_aceparser.py --train_img_paths ./dataset/data/images/train_images.txt --train_label_paths ./dataset/data/labels/train_labels.txt --eval_img_paths ./dataset/data/images/val_images.txt --output_dir ./model/weights
-
推理代码示例: python from transformers import AutoProcessor, AutoModelForCausalLM model_id = "jihuawei/AcaParser" acaparser_model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True).eval().to(cuda:0)
引用
@misc{huawei2024aceparse, title={AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing}, author={Huawei Ji and Cheng Deng and Bo Xue and Zhouyang Jin and Jiaxin Ding and Xiaoying Gan and Luoyi Fu and Xinbing Wang and Chenghu Zhou}, year={2024}, eprint={2409.}, archivePrefix={arXiv}, primaryClass={cs.CL} }




