CRAWLDoc

Name: CRAWLDoc
Creator: 德国乌尔姆大学
Published: 2025-06-04 18:52:55
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/FKarl/CRAWLDoc

下载链接

链接失效反馈

官方服务：

资源简介：

CRAWLDoc 是一个用于评估从多种网络来源准确提取元数据的新方法。该数据集包含来自六个顶级出版商的600篇计算机科学出版物，每个出版物都有详细的元数据，包括标题、年份、作者姓名和所属机构。此外，每个出版物的网页上的所有外链都有二元相关性标签。该数据集旨在解决从具有不同布局和格式的网络文档中改进元数据提取的问题。

CRAWLDoc is a novel dataset intended to evaluate novel methods for accurate metadata extraction from diverse web sources. The dataset consists of 600 computer science publications from six top-tier publishers, with each publication having comprehensive metadata including its title, publication year, author names and affiliated institutions. Furthermore, all external links on the web page of each individual publication are annotated with binary relevance labels. This dataset aims to address the challenge of enhancing metadata extraction from web documents with varying layouts and formatting styles.

提供机构：

德国乌尔姆大学

创建时间：

2025-06-04

原始信息汇总

CRAWLDoc数据集概述

数据集简介

名称：CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
用途：用于文献书目文档的鲁棒性排序
特点：
- 提供上下文排序方法(CRAWLDoc)
- 包含新的基准测试数据集

关键特性

布局独立性：支持不同出版商网站变体的鲁棒排序
多格式支持：可处理HTML和PDF文档
单跳上下文：评估单次爬取深度内的链接资源
可复现基线：包含预配置的Jina Embeddings v2模型设置

数据集内容

出版物数量：600篇来自6大计算机科学出版商(ACM, IEEE, Springer等)
标注数据：72,483个文档相关性标签
元数据：
- 完整的书目记录(包含作者隶属关系)
- 出版商布局变体(用于鲁棒性测试)

数据结构

json { "doi": "出版物DOI", "publisher_doi": "出版商DOI", "publisher": "出版商名称", "year": "出版年份", "title": "出版物标题", "authors": [ [ "作者姓名", [ "作者隶属机构" ] ] ], "linked_websites": [ { "id": "链接网站ID", "anchor": "链接锚文本", "website": "网站URL", "label": "网站标签" } ] }

实验设置

训练脚本：train_retrieval.py(训练检索模型)
评估脚本：eval_ranking.py(评估检索模型)
超参数搜索：使用Weights and Biases(配置文件sweep.yaml)

搜集汇总

数据集介绍

构建方式

在学术文献元数据提取领域，CRAWLDoc数据集的构建采用了系统性的人工标注方法。研究团队从计算机科学领域六大顶级出版商的DBLP文献库中随机选取600篇出版物作为样本基础，通过人工方式精确标注了每篇文献的标题、出版年份、作者姓名及所属机构等元数据。针对每篇出版物的着陆页，研究团队对所有外链资源进行了二元相关性标注，判断其是否与原始出版物相关，最终形成了包含72,483个标注链接的高质量数据集。

特点

CRAWLDoc数据集在学术文献处理领域展现出独特的价值特征。该数据集不仅包含常规的文献元数据，还创新性地标注了作者隶属机构信息以及网页链接的相关性标签。数据样本覆盖了计算机科学领域80%以上的主流出版物，包含平均每篇文献120个外链资源中约5个相关文档的精确标注。这种对异构网络资源（HTML、PDF等）的细粒度标注，为研究跨出版商的文献元数据提取提供了重要基准。

使用方法

该数据集主要服务于学术文献检索与元数据提取研究领域。使用者可通过分析着陆页与链接文档的嵌入表示，开发基于相似度计算的文档排序算法。实验设置建议采用80/10/10的数据划分比例，并可通过留一法（leave-one-out）验证模型的跨出版商泛化能力。评估指标推荐使用MRR、MAP和nDCG等排序质量指标，以及precision@k、recall@k等截断评估指标，全面衡量系统在识别相关文献资源方面的性能。

背景与挑战

背景概述

CRAWLDoc数据集由德国乌尔姆大学的Fabian Karl和Ansgar Scherp团队于2025年提出，旨在解决学术出版物元数据提取中的关键挑战。该数据集包含来自计算机科学领域六大顶级出版商的600篇出版物，每篇出版物均标注了其落地页面上所有外链文档的相关性标签。作为首个整合作者隶属机构信息并提供网页链接相关性标注的学术数据集，CRAWLDoc通过统一嵌入表示处理HTML、PDF等多种文档格式，为跨出版商的元数据提取建立了新基准。其创新性的文档即查询（document-as-query）方法显著提升了异构网络环境下学术资源的检索效率，对DBLP等学术数据库的自动化建设具有重要实践意义。

当前挑战

该数据集主要面临两重核心挑战：在领域问题层面，需解决学术网页布局异构性导致的元数据提取困难，包括不同出版商网页模板差异、混合格式文档（HTML/PDF/ORCID）处理，以及相同版面结构可能对应不同论文的歧义消除问题；在构建过程中，人工标注需克服外链文档规模庞大（平均每篇120.81个链接）与有效文档稀少（仅5.45个相关文档）的不平衡问题，同时确保跨出版商标注标准的一致性。技术实现上还需处理网页动态渲染、PDF版面解析等异构数据转换难题，以及法律合规性带来的原始网页数据不可公开的传播限制。

常用场景

经典使用场景

在学术信息检索领域，CRAWLDoc数据集为研究人员提供了一个标准化的评估平台，用于测试和比较不同文档排名算法的性能。该数据集包含来自计算机科学领域六大顶级出版商的600篇出版物，每篇出版物的相关链接均经过人工标注，确保了数据的高质量和可靠性。通过将出版物着陆页作为查询，CRAWLDoc能够有效评估算法在异构网络文档中识别相关资源的能力。

衍生相关工作

基于CRAWLDoc数据集的研究推动了多个相关领域的发展。在神经信息检索方面，该数据集被用于验证BERT-based模型（如Jina embeddings）在长文档检索中的有效性。在文档AI领域，CRAWLDoc的方法论启发了LayoutLMv3等布局感知语言模型的改进。此外，该数据集还为ColBERTv2等高效检索系统的性能评估提供了重要基准。

数据集最近研究