five

otagent-jupiter-2026-05-13

收藏
Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/laion/otagent-jupiter-2026-05-13
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个conda环境快照,旨在精确复现在JSC Jupiter集群(基于NVIDIA GH200 aarch64架构)上为otagent项目配置的计算环境。数据集通过conda-pack工具打包,保留了原始环境的完整依赖关系,特别是本地构建的vLLM 0.16.0 wheel文件及其所有传递依赖。数据集包含以下文件:打包的环境存档文件(otagent-jupiter-2026-05-13.tar.gz)、构建日志(pack.log)、conda环境导出文件(env.yml)以及pip冻结输出(pip_freeze.txt)。源环境使用Python 3.12,并针对CUDA 13和PyTorch 2.9.x栈进行配置。关键软件包包括vLLM 0.16.0、torch 2.9.x和针对aarch64架构预构建的flash-attn。数据集排除了三个以可编辑模式安装的软件包(Harbor、OpenThoughts-Agent及其子模块llamafactory),这些需要在恢复后手动克隆和安装。该环境快照专门为aarch64(Grace)架构和CUDA 13驱动栈构建,不兼容x86_64系统。主要用途是确保研究或开发工作能在与原始环境一致的软件栈中复现,适用于需要特定版本vLLM和PyTorch配置的AI模型服务或实验场景。

This dataset is a conda environment snapshot designed to precisely replicate the computing environment configured for the otagent project on the JSC Jupiter cluster (based on NVIDIA GH200 aarch64 architecture). The dataset is packaged using the conda-pack tool, preserving the complete dependency relationships of the original environment, especially the locally built vLLM 0.16.0 wheel file and all its transitive dependencies. The dataset includes the following files: a packed environment archive file (otagent-jupiter-2026-05-13.tar.gz), build logs (pack.log), a conda environment export file (env.yml), and a pip freeze output (pip_freeze.txt). The source environment uses Python 3.12 and is configured for the CUDA 13 and PyTorch 2.9.x stack. Key software packages include vLLM 0.16.0, torch 2.9.x, and flash-attn pre-built for the aarch64 architecture. The dataset excludes three packages installed in editable mode (Harbor, OpenThoughts-Agent, and its submodule llamafactory), which need to be manually cloned and installed after restoration. This environment snapshot is specifically built for aarch64 (Grace) architecture and CUDA 13 driver stack, and is not compatible with x86_64 systems. The primary purpose is to ensure that research or development work can be reproduced in a software stack consistent with the original environment, suitable for AI model service or experimental scenarios requiring specific versions of vLLM and PyTorch configurations.
提供机构:
LAION eV
创建时间:
2026-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是面向高性能计算集群JSC Jupiter(基于GH200 aarch64架构及CUDA 13)构建的otagent conda环境快照。采用conda-pack工具对包含本地编译vLLM 0.16.0版本及其所有传递依赖的conda环境进行打包,以确保环境的高保真还原。数据集中包含了压缩后的环境包、构建日志、环境导出YAML文件以及pip依赖清单,并提供三个可编辑安装项目的排除处理与后续恢复指南。
特点
该数据集具有鲜明的平台特异性和完整性。其构建基于aarch64架构的GH200 GPU与CUDA 13栈,仅能在兼容的目标平台上恢复使用。核心亮点在于预集成了一组关键计算库:本地编译的vLLM 0.16.0推理加速引擎、PyTorch 2.9.x、针对特定架构优化的flash-attention,以及Harbor、SkyRL、OT-Agent等前沿的大模型训练与强化学习依赖,极大简化了在Jupiter集群上复现实验环境的复杂度。
使用方法
使用该数据集需在具备aarch64架构与CUDA 13兼容性的主机上操作。首先通过HuggingFace Datasets库下载压缩包,解压至目标目录后运行conda-unpack命令修复路径和钩子脚本,随后激活环境即可使用。若需恢复被排除的三个可编辑安装项目,需分别从对应代码仓库克隆后使用pip进行可编辑安装。环境激活后即可直接使用集成的vLLM等关键工具进行模型推理、微调或强化学习实验。
背景与挑战
背景概述
otagent-jupiter-2026-05-13数据集由德国于利希研究中心(JSC)的研究人员于2026年5月创建,依托于配备GH200 GPU(aarch64架构)的‘Jupiter’超级计算机。该数据集的核心研究问题在于为大规模语言模型推理框架vLLM 0.16.0及强化学习训练工具链(如Harbor、SkyRL、OT-Agent)提供一个可复现的Conda环境快照,以保障在异构高性能计算环境中的依赖完整性。通过使用conda-pack打包本地编译的vLLM wheel及其所有传递依赖,该数据集填补了HPC场景下复杂Python环境难以迁移和重现的空白,对推动可复现的高性能AI研究具有重要参考价值。
当前挑战
数据集所解决的领域问题在于分布式AI软件栈的部署与复现困境——高性能计算集群通常依赖特定硬件架构(如aarch64)和定制化编译的CUDA库,而通用包管理工具难以精确捕获此类环境。构建过程中面临的关键挑战包括:需兼容CUDA 13及PyTorch 2.9.x的混合pip+conda安装,以及处理本地编译vLLM因缺少git提交哈希而触发的运行时警告;此外,三个可编辑安装包(Harbor、OpenThoughts-Agent、LLaMA-Factory)因依赖源码位置而被排除,增加了恢复时的额外克隆与安装步骤,降低了开箱即用的便捷性。
常用场景
经典使用场景
在科学计算与高性能计算领域,环境复现与可移植性是保障研究可重复性的基石。该数据集作为一个基于conda-pack打包的完整Conda环境快照,专为JSC Jupiter集群上的GH200 aarch64架构设计,包含了Python 3.12、CUDA 13、vLLM 0.16.0以及PyTorch 2.9.x等核心依赖。其经典使用场景在于,当研究人员需要在其他兼容的aarch64+CUDA 13机器上快速重建计算环境时,可直接解压该压缩包并执行conda-unpack命令,即可获得与源环境完全一致的运行时配置,从而规避了逐一手动安装依赖包时可能出现的版本冲突与兼容性问题,极大地提升了实验环境的迁移效率与复现精度。
衍生相关工作
该环境快照衍生了一系列与环境可复现性相关的经典工作与技术实践。其基于conda-pack的打包策略为同类研究提供了可复用的方法论参考,例如在学术论文中,作者常引用此类快照作为实验环境复现的辅助材料,确保审稿人能够精准印证实验结果。同时,该工作也推动了OT-Agent、Harbor等项目在特定硬件架构(如GH200)上的适配与优化,相关社区得以在此基础上构建针对不同GPU架构的标准化环境镜像。此外,vLLM 0.16.0的本地编译版本与PyTorch 2.9.x的混合包管理实践,为后续研究者在处理复杂依赖链时提供了实证经验,促进了高性能计算环境中环境管理工具链的演进。
数据集最近研究
最新研究方向
该数据集为2026年5月13日对JSC Jupiter集群上otagent conda环境的完整快照,聚焦于大规模语言模型推理与智能体系统的前沿研究。其核心价值在于精准复现了基于CUDA 13、Python 3.12及aarch64架构(GH200)的vLLM 0.16.0本地构建环境,并集成了Harbor、OpenThoughts-Agent及LLaMA-Factory等关键可编辑包。这为可扩展强化学习框架SkyRL与开放思维链智能体(OT-Agent)的可复现性研究提供了标准化基底,有力推动了异构高性能计算环境下推理效率优化与智能体行为对齐的交叉领域探索,亦是应对未来超大规模模型部署挑战的关键基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作