five

AceParse|学术文献解析数据集|结构化文本数据集

收藏
arXiv2024-09-16 更新2024-09-18 收录
学术文献解析
结构化文本
下载链接:
https://github.com/JHW5981/AceParse
下载链接
链接失效反馈
资源简介:
AceParse是由上海交通大学和中国科学院共同创建的综合性学术文献解析数据集,旨在解决学术文献中多种结构化文本的解析问题。该数据集包含500,000条结构化文本,涵盖公式、表格、列表、算法等多种类型,使用LaTeX标记语言进行标注。数据集的创建过程包括文档收集、数据合成和边界检测,确保了数据的高质量和多样性。AceParse主要应用于学术文献解析领域,旨在提升模型对复杂结构化文本的解析能力。
提供机构:
上海交通大学
创建时间:
2024-09-16
原始信息汇总

AceParse 数据集概述

概述

AceParse 是一个综合性的数据集,包含多种结构化文本,如公式、表格、算法、列表以及嵌入数学表达式的句子等。该数据集旨在用于学术文献解析。

数据集结构

数据集的组织结构如下:

dataset/ ├── downloads/ # 原始源文件 ├── TEX/ # 从源文件中提取的 .tex 文件 ├── SYNS_TEX/ # 合成的 .tex 文件 ├── SYNS_PDF/ # 编译合成 .tex 后生成的 pdf 文件 ├── IMAGE/ # 从合成 .pdf 中裁剪出的 .png 图像 ├── data/ │ ├── images/ # 图像路径 │ └── labels/ # tex 标签路径 └── samples # AceParse 的样本

数据生成流程

  1. 下载源文件并提取 LaTeX 代码。
  2. 合成 LaTeX 代码并生成 PDF 文件。
  3. 从 PDF 文件中裁剪出图像。
  4. 分割数据集,生成训练、验证和测试集的图像路径及对应的解析文本。

数据加载与显示

AceParse 数据集已上传至 huggingface🤗。可以使用以下代码直接导入数据集: python from datasets import load_dataset from PIL import Image import io import numpy as np import matplotlib.pyplot as plt

ds = load_dataset("jihuawei/AceParse", split=train)

将二进制图像转换为 PIL 图像

image = Image.open(io.BytesIO(ds[0][image]))

获取 numpy 图像

image_array = np.array(image)

标签

label = ds[0][label]

显示图片

plt.imshow(image_array) plt.axis(off) plt.show()

打印标签

print("Label:", label)

引用

@misc{huawei2024aceparse, title={AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing}, author={Huawei Ji and Cheng Deng and Bo Xue and Zhouyang Jin and Jiaxin Ding and Xiaoying Gan and Luoyi Fu and Xinbing Wang and Chenghu Zhou}, year={2024}, eprint={2409.10016}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
AceParse数据集的构建过程分为三个主要阶段:文档收集、数据合成和边界检测。首先,通过使用ArXiv ID从Papers with Code中收集了10,000个开放访问的LaTeX源文件,涵盖了计算机科学的102个子领域。随后,应用规则技术结合领域特定知识对源代码进行清理,以确保内容的一致性和准确性。最后,通过随机组合提取的结构化文本生成新的LaTeX代码,并使用pdflatex编译成PDF文件,确保所有结构正确渲染。边界检测阶段则使用像素级方法精确提取文献图像,确保高质量的数据集构建。
使用方法
AceParse数据集主要用于训练和评估学术文献解析模型。用户可以通过GitHub获取该数据集,并将其用于多模态模型的微调,以提高模型对复杂结构文本的解析能力。具体使用时,可以将数据集分为训练集、验证集和测试集,采用如AdamW优化器和线性学习率调度策略进行模型训练。通过对比不同解析方法的性能,AceParse数据集为学术文献解析领域的研究提供了有力的支持。
背景与挑战
背景概述
随着数据驱动的人工智能发展,研究焦点已从模型驱动转向提升数据质量。学术文献作为关键数据类型,主要以PDF格式存储,需解析为文本以进行进一步处理。然而,解析学术文献中的多样化结构文本仍具挑战,因缺乏涵盖多种文本结构的数据集。AceParse数据集由上海交通大学和中国科学院的研究团队创建,旨在支持广泛结构文本的解析,包括公式、表格、列表、算法及嵌入数学表达的句子。该数据集通过LaTeX标记语言精确描述文本结构,是首个针对学术文献多样化结构内容的开源数据集,推动了学术文献解析领域的发展。
当前挑战
AceParse数据集面临的挑战包括:首先,现有基于OCR的方法主要关注字符识别,导致结构信息丢失;其次,模块化方法虽能处理预定义内容类型,但对复杂结构如算法和列表的处理能力有限;再者,现有端到端解析模型如Nougat,训练于狭窄的专有数据集,限制了其在多样化结构中的泛化能力;最后,现有开源数据集多限于字符级解析或特定内容类型,未能全面覆盖学术文档中的多样化结构元素。构建过程中,随机组合不同结构内容以生成新LaTeX文件的挑战在于确保文件成功编译,避免因内容随机性导致的编译错误。
常用场景
经典使用场景
AceParse数据集在学术文献解析领域中具有经典的使用场景,主要用于训练和评估多模态模型,以解析学术文献中的多样化结构文本,如公式、表格、列表和算法等。通过提供丰富的标注数据,AceParse支持模型学习如何准确地从PDF格式中提取和重构这些结构化信息,从而为学术文献的自动化处理奠定了基础。
解决学术问题
AceParse数据集解决了学术文献解析中的多个关键问题,包括PDF格式中文本结构信息的丢失、现有数据集对多样化结构文本覆盖不足等。通过提供全面且多样化的结构文本标注,AceParse显著提升了模型的泛化能力和解析精度,推动了学术文献自动化处理技术的发展,为相关研究提供了高质量的数据支持。
实际应用
AceParse数据集在实际应用中展现出广泛的前景,特别是在学术出版、科研数据管理和知识图谱构建等领域。例如,学术出版商可以利用AceParse训练的模型自动解析和格式化学术论文,提高出版效率;科研机构则可以借助该数据集提升数据管理系统的智能化水平,实现科研数据的自动提取和整合。
数据集最近研究
最新研究方向
在学术文献解析领域,AceParse数据集的最新研究方向聚焦于多模态模型的优化与应用。随着数据中心化AI的发展,提升数据质量成为推动AI技术进步的关键。AceParse数据集通过涵盖多种结构化文本,如公式、表格、列表和算法,为学术文献解析提供了全面的训练资源。基于此数据集,研究者们开发了AceParser模型,该模型在F1分数和Jaccard相似度上分别提升了4.1%和5%,显著超越了现有最先进的方法。这一进展不仅展示了多模态模型在学术文献解析中的潜力,也为未来研究提供了新的基准和方向,特别是在提高解析速度和模型效率方面。
相关研究论文
  • 1
    AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing上海交通大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录