大模型训练优化数据集
收藏DataCite Commons2025-04-27 更新2025-04-16 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=0a8e1711eac5416fa430a91ee3cca19d
下载链接
链接失效反馈官方服务:
资源简介:
此为《基于数据选择和异构训练的大模型训练优化算法》的数据集,由glue数据集和The pile中的Wikipedia数据集组成,均为公开数据集,由于Wikipedia数据集过于庞大故不在此处上传,可自行前往EleutherAI/the-pile (github.com)下载
提供机构:
Science Data Bank
创建时间:
2024-08-01



