pipeline-scripts
收藏ArXiv Classification Pipeline Scripts 数据集概述
数据集基本信息
- 名称:ArXiv Classification Pipeline Scripts
- 地址:https://huggingface.co/datasets/librarian-bots/pipeline-scripts
- 标签:uv-script, arxiv, classification, embeddings
数据集内容描述
该数据集包含用于对arXiv论文进行分类并生成语义嵌入的UV脚本。
包含的脚本
- classify_arxiv_to_lance.py:使用ModernBERT对arXiv计算机科学论文进行分类,以识别哪些论文引入了新的数据集。
- embed_arxiv_lance.py:使用BGE-base生成语义嵌入,用于向量搜索。
使用方法
分类脚本
-
本地运行(测试100篇论文): bash uv run https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/classify_arxiv_to_lance.py --limit 100
-
在HF Jobs上运行(A100,完全刷新): bash hf jobs uv run --flavor a100-large --image vllm/vllm-openai --secrets HF_TOKEN --timeout 1h https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/classify_arxiv_to_lance.py --full-refresh
嵌入脚本
-
本地运行(测试100篇论文): bash uv run https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/embed_arxiv_lance.py --limit 100
-
在HF Jobs上运行(A100,完全刷新): bash hf jobs uv run --flavor a100-large --secrets HF_TOKEN --timeout 4h https://huggingface.co/datasets/librarian-bots/pipeline-scripts/resolve/main/embed_arxiv_lance.py --full-refresh
输出数据集
- 中间数据集:https://huggingface.co/datasets/librarian-bots/arxiv-cs-papers-classified
- 最终数据集(含嵌入):https://huggingface.co/datasets/librarian-bots/arxiv-cs-papers-lance
使用的模型
- 分类模型:https://huggingface.co/davanstrien/ModernBERT-base-is-new-arxiv-dataset
- 嵌入模型:https://huggingface.co/BAAI/bge-base-en-v1.5




