markuplm_scimetadata

Hugging Face2025-04-11 更新2025-04-12 收录

下载链接：

https://huggingface.co/datasets/endthesame/markuplm_scimetadata

下载链接

链接失效反馈

官方服务：

资源简介：

用于训练元数据提取模型的科学作品数据集，包含27种元数据类型的BIO标注，数据以HTML格式的科学论文为主，支持MarkupLM模型格式，划分为训练/验证/测试集，具有多领域数据来源。

This scientific work dataset is designed for training metadata extraction models. It contains BIO annotations for 27 metadata categories, primarily consists of HTML-formatted scientific papers, supports the MarkupLM model format, is split into training, validation, and test sets, and has multi-domain data sources.

创建时间：

2025-04-11

原始信息汇总

数据集概述：MarkupLM Metadata Extraction From Scientific Works

📖 数据集描述

用途：训练模型（包括MarkupLM）从科学论文HTML格式中提取元数据。
任务类型：Token分类（实体提取），包含27种元数据类型的BIO标注。

🎯 关键特性

预处理划分：训练集/验证集/测试集
兼容格式：MarkupLM专用格式
标注方式：BIO token标注
多领域数据：16个来源
元数据结构： python { "tokens": ["<html>", "<head>", ...], "xpaths": ["/html[1]/body[1]", ...], "metadata": { "title": {"text": [...], "xpaths": [...]}, ... }, "node_labels": [0, 1, 2, ...] # BIO标签 }

📊 数据统计

来源分布

资源名称	文章数	书籍数	书籍章节数	会议论文数
ACS	10000	81	1000	-
AIP	-	117	1756	-
BMJ	10000	-	-	-
CAIRN	-	71	-	-
Duke	9973	1000	1000	-
Emerald	10000	4116	5000	-
IEEE	10067	7229	10000	10000
IOP	10000	933	1426	-
Karger	10000	5931	-	-
Oxford	10000	-	-	-
RSC	9178	2187	10000	-
SAE	10710	936	-	-
Sage	1641	5716	-	-
ScienceDirect	10000	10000	-	-
Cambridge	13172	3160	9743	-
ACM	5038	1502	-	10000

📜 数据结构

python Features({ "id": Value("string"), "source_file": Value("string"), # 源文件路径 "resource": Value("string"), # 出版商(ACS, IEEE等) "doc_type": Value("string"), # 文档类型 "tokens": Sequence(Value("string")), "xpaths": Sequence(Value("string")), # 每个token的XPath "metadata": { # 目标元数据字段 field: { "text": Sequence(Value("string")), "xpaths": Sequence(Value("string")) } for field in expected_fields }, "node_labels": Sequence(Value("int64")), # BIO标签 "processing_time": Value("string") })

📜 标签映射

json { "id2label": { "0": "O", "1": "B-TITLE", "2": "I-TITLE", // 完整包含54个标签类别（从B/I-TITLE到B/I-BOOK_TITLE） } }

🏗️ 数据集创建

生成工具：markuplm-dataset-creator

搜集汇总

数据集介绍

构建方式

在科学文献元数据提取领域，markuplm_scimetadata数据集通过系统化的方法构建而成。该数据集采用16个权威出版机构（包括ACS、IEEE、ScienceDirect等）的学术文献作为数据源，涵盖文章、书籍、会议论文等多种文献类型。通过定制开发的工具对HTML格式文档进行结构化解析，采用BIO标注体系对27类元数据实体进行精细标注，同时保留原始文档的XPath结构信息，确保数据层次的可追溯性。

使用方法

针对科学文献元数据提取任务，该数据集支持端到端的模型训练与评估。研究者可直接加载预定义的train/validation/test分割，利用提供的token序列、XPath坐标及BIO标签构建序列标注模型。对于MarkupLM等预训练模型，数据集的结构化特征可直接输入模型进行微调。高级用户可通过metadata字段访问原始标注信息，实现多任务学习或结合文档结构特征进行增强学习。

背景与挑战

背景概述

MarkupLM_scimetadata数据集是专为科学文献元数据提取任务而设计的语料库，其核心目标是通过结构化标记语言处理技术，从HTML格式的科学论文中自动识别27类关键元数据。该数据集由多领域研究团队构建，整合了来自ACS、IEEE、ScienceDirect等16个权威出版平台的跨学科文献资源，覆盖期刊论文、会议文献、书籍章节等多种文献类型。作为自然语言处理与文档结构分析交叉领域的重要资源，该数据集为基于标记语言的预训练模型（如MarkupLM）提供了标准化评估基准，显著推进了学术文献智能解析技术的发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，科学文献元数据具有高度异构性，不同出版机构的HTML结构差异显著，且作者署名、机构归属等实体常存在嵌套与歧义表达，要求模型具备细粒度结构理解能力；在构建过程中，需处理原始HTML文档的噪声标记与不规则嵌套问题，同时精确标注27类元数据的边界与层级关系，标注一致性维护与跨出版源的数据标准化消耗了大量工程成本。此外，学术文献特有的公式、图表等非文本元素的干扰，进一步增加了特征提取的复杂度。

常用场景

经典使用场景

在科学文献信息处理领域，markuplm_scimetadata数据集为研究者提供了丰富的HTML格式科学论文元数据标注资源。该数据集最经典的应用场景是训练和评估基于标记语言的元数据提取模型，特别是针对MarkupLM等预训练模型在学术文献结构化信息抽取任务上的性能优化。通过27种元数据类型的BIO标注体系，研究者能够构建精准的命名实体识别系统，从复杂的HTML文档结构中定位标题、作者、期刊等关键学术元素。

解决学术问题

该数据集有效解决了科学文献数字化过程中的核心挑战——非结构化数据的语义解析问题。通过提供跨16个出版源的标准化标注数据，研究者能够系统性地探索学术文献的语义表征规律，突破传统规则抽取方法的局限性。特别在解决HTML文档中视觉与语义分离的难题上，其融合XPath路径与BIO标签的标注框架，为深度学习模型理解文档结构语义提供了关键训练基准。

实际应用

在实际应用层面，该数据集支撑的元数据提取技术已广泛应用于学术知识图谱构建、数字图书馆系统优化等领域。出版机构利用基于该数据集训练的模型，能够自动化处理海量文献的元数据标引工作，显著提升Crossref等学术索引系统的数据质量。科研管理平台则通过集成相关技术，实现学术成果的智能归类与关联分析，为科研评价体系提供数据支撑。

数据集最近研究