pipeline-scripts

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/librarian-bots/pipeline-scripts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于处理arXiv论文的脚本，主要功能包括分类和生成语义嵌入。分类脚本使用ModernBERT模型识别计算机科学领域引入新数据集的论文，而嵌入生成脚本使用BGE-base模型为论文生成语义嵌入，以支持向量搜索。输出数据集包括中间结果（分类后的论文）和最终结果（带有嵌入的论文）。适用任务包括arXiv论文的分类和语义搜索。

创建时间：

2026-02-03

原始信息汇总

ArXiv Classification Pipeline Scripts 数据集概述

数据集基本信息

名称：ArXiv Classification Pipeline Scripts
地址：https://huggingface.co/datasets/librarian-bots/pipeline-scripts
标签：uv-script, arxiv, classification, embeddings

数据集内容描述

该数据集包含用于对arXiv论文进行分类并生成语义嵌入的UV脚本。

包含的脚本

classify_arxiv_to_lance.py：使用ModernBERT对arXiv计算机科学论文进行分类，以识别哪些论文引入了新的数据集。
embed_arxiv_lance.py：使用BGE-base生成语义嵌入，用于向量搜索。

使用方法

分类脚本

本地运行（测试100篇论文）： bash uv run https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/classify_arxiv_to_lance.py --limit 100
在HF Jobs上运行（A100，完全刷新）： bash hf jobs uv run --flavor a100-large --image vllm/vllm-openai --secrets HF_TOKEN --timeout 1h https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/classify_arxiv_to_lance.py --full-refresh

嵌入脚本

本地运行（测试100篇论文）： bash uv run https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/embed_arxiv_lance.py --limit 100
在HF Jobs上运行（A100，完全刷新）： bash hf jobs uv run --flavor a100-large --secrets HF_TOKEN --timeout 4h https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/embed_arxiv_lance.py --full-refresh

输出数据集

中间数据集：https://huggingface.co/datasets/librarian-bots/arxiv-cs-papers-classified
最终数据集（含嵌入）：https://huggingface.co/datasets/librarian-bots/arxiv-cs-papers-lance

使用的模型

分类模型：https://huggingface.co/davanstrien/ModernBERT-base-is-new-arxiv-dataset
嵌入模型：https://huggingface.co/BAAI/bge-base-en-v1.5

搜集汇总

数据集介绍

构建方式

在学术文献自动化处理领域，该数据集通过精心设计的流水线脚本构建而成。其核心流程首先利用ModernBERT模型对arXiv计算机科学领域的论文进行智能分类，旨在精准识别那些引入了新数据集的文献。随后，借助BGE-base模型为这些分类后的论文生成高质量的语义嵌入向量。整个构建过程强调自动化与可扩展性，支持从本地测试到云端大规模作业的灵活执行，最终产出结构化的中间与最终数据集，为学术知识挖掘奠定了坚实基础。

使用方法

用户可通过多种方式灵活运用该数据集配套的脚本工具。对于初步探索，建议在本地环境中使用`uv run`命令配合`--limit`参数进行小规模测试，以快速验证流程。当需要进行大规模数据处理时，则可利用Hugging Face Jobs平台，指定A100等高性能计算资源并设置相应的超时与密钥，以执行完整的分类或嵌入生成任务。脚本执行后将生成两个关键的数据集：一个包含分类结果的中间数据集，另一个则是融合了语义嵌入向量的最终数据集，用户可直接将其用于下游的学术研究或开发任务。

背景与挑战

背景概述

在学术信息爆炸性增长的背景下，高效管理与挖掘海量文献资源成为计算机科学领域的关键需求。pipeline-scripts数据集由librarian-bots机构创建，旨在通过自动化流程对arXiv计算机科学论文进行智能分类与语义嵌入生成。该数据集的核心研究问题聚焦于如何精准识别引入新数据集的学术论文，并构建其向量化表示，以支持高效的语义检索与知识发现。其构建依托ModernBERT与BGE等前沿模型，为学术文献的自动化处理与知识图谱构建提供了重要工具，推动了学术信息管理向智能化、结构化的方向发展。

当前挑战

该数据集致力于解决学术文献自动分类与语义嵌入生成中的关键挑战，包括如何准确界定“新数据集”这一模糊概念，以及处理arXiv论文中非结构化文本的复杂语义。在构建过程中，面临大规模数据处理的计算资源限制，需在有限时间内完成对海量论文的深度分析与向量化；同时，模型依赖的预训练Transformer架构可能引入领域适应偏差，影响分类与嵌入的泛化性能。此外，保持数据管道在动态更新的学术库中的持续同步与版本一致性，亦是技术实现上的重要难点。

常用场景

经典使用场景

在学术文献管理领域，pipeline-scripts数据集通过其分类与嵌入脚本，为大规模arXiv计算机科学论文的自动化处理提供了经典范例。该数据集的核心脚本能够识别引入新数据集的论文，并生成语义向量，从而支持高效的文献筛选与知识发现。这一流程典型应用于构建结构化的学术资源库，为后续的智能检索与分析奠定基础。

解决学术问题

该数据集直接应对学术研究中文献过载与信息检索效率低下的挑战。通过自动化分类模型，它精准识别出那些贡献新数据集的论文，解决了手动标注耗时且易出错的问题。同时，其生成的语义嵌入向量促进了基于内容的相似性搜索，显著提升了学术知识发现的深度与广度，对推动科学研究的可重复性与资源整合具有重要价值。

实际应用

在实际应用中，pipeline-scripts数据集支撑了智能学术助手与文献推荐系统的开发。例如，研究机构或科技企业可利用其输出的分类与嵌入结果，构建内部论文数据库，实现快速的主题筛选与相关文献推荐。此外，该数据集也为学术搜索引擎的优化提供了底层数据支持，帮助用户更精准地定位前沿研究成果。

数据集最近研究