five

大模型加速数据集LLaVA-CC3M-Pretrain-595K

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=683dead9195d261233189961&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
大模型加速数据集LLaVA-CC3M-Pretrain-595K采集方案:首先从训练语料库中占主导地位的语言类别中随机选择一个标记,然后利用这个标记作为输入,让预训练的大型语言模型通过两阶段模式生成连贯的文本序列,从而构建一个多样化且具有代表性的校准数据集,最后在多个数据集上评估量化模型的性能,以确保其泛化能力。数据量大小2GB。
提供机构:
浙江大学
二维码
社区交流群
二维码
科研交流群
商业服务