five

PTMTorrent

收藏
arXiv2023-03-16 更新2024-06-21 收录
下载链接:
https://app.globus.org/file-manager?origin_id=55e17a6e-9d8f-11ed-a2a2-8383522b48d9&origin_path=%2F%7E%2F
下载链接
链接失效反馈
官方服务:
资源简介:
PTMTorrent数据集是由普渡大学和洛约拉大学芝加哥分校的研究团队创建,旨在帮助研究者评估和理解预训练模型(PTMs)包。该数据集包含来自5个不同PTM注册中心的15,913个PTM包,总数据量约61TB。数据集通过统一的数据模式进行标准化,便于跨注册中心的数据挖掘。创建过程中,研究团队从多个开放和受限的模型注册中心收集数据,并提供了完整的git克隆,确保数据的完整性和可访问性。PTMTorrent数据集主要应用于机器学习领域,特别是支持PTM的再利用和下游任务的微调,有助于解决模型开发和训练的高成本问题。

The PTMTorrent dataset was developed by a research team from Purdue University and Loyola University Chicago, aiming to assist researchers in evaluating and understanding pre-trained model (PTM) packages. This dataset comprises 15,913 PTM packages sourced from five distinct PTM registries, with a total data volume of approximately 61 TB. The dataset is standardized using a unified data schema, which facilitates cross-registry data mining. During its creation, the research team collected data from multiple open and restricted model registries, and provided complete git clones to ensure data integrity and accessibility. The PTMTorrent dataset is primarily applied in the field of machine learning, particularly to support the reuse of PTMs and fine-tuning for downstream tasks, helping to address the high costs associated with model development and training.
提供机构:
普渡大学和洛约拉大学芝加哥分校
创建时间:
2023-03-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作