AceParse|学术文献解析数据集|结构化文本数据集
收藏AceParse 数据集概述
概述
AceParse 是一个综合性的数据集,包含多种结构化文本,如公式、表格、算法、列表以及嵌入数学表达式的句子等。该数据集旨在用于学术文献解析。
数据集结构
数据集的组织结构如下:
dataset/ ├── downloads/ # 原始源文件 ├── TEX/ # 从源文件中提取的 .tex 文件 ├── SYNS_TEX/ # 合成的 .tex 文件 ├── SYNS_PDF/ # 编译合成 .tex 后生成的 pdf 文件 ├── IMAGE/ # 从合成 .pdf 中裁剪出的 .png 图像 ├── data/ │ ├── images/ # 图像路径 │ └── labels/ # tex 标签路径 └── samples # AceParse 的样本
数据生成流程
- 下载源文件并提取 LaTeX 代码。
- 合成 LaTeX 代码并生成 PDF 文件。
- 从 PDF 文件中裁剪出图像。
- 分割数据集,生成训练、验证和测试集的图像路径及对应的解析文本。
数据加载与显示
AceParse 数据集已上传至 huggingface🤗。可以使用以下代码直接导入数据集: python from datasets import load_dataset from PIL import Image import io import numpy as np import matplotlib.pyplot as plt
ds = load_dataset("jihuawei/AceParse", split=train)
将二进制图像转换为 PIL 图像
image = Image.open(io.BytesIO(ds[0][image]))
获取 numpy 图像
image_array = np.array(image)
标签
label = ds[0][label]
显示图片
plt.imshow(image_array) plt.axis(off) plt.show()
打印标签
print("Label:", label)
引用
@misc{huawei2024aceparse, title={AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing}, author={Huawei Ji and Cheng Deng and Bo Xue and Zhouyang Jin and Jiaxin Ding and Xiaoying Gan and Luoyi Fu and Xinbing Wang and Chenghu Zhou}, year={2024}, eprint={2409.10016}, archivePrefix={arXiv}, primaryClass={cs.CL} }

- 1AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing上海交通大学 · 2024年
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录