LongAlign-10k
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/THUDM/LongAlign-10k
下载链接
链接失效反馈官方服务:
资源简介:
LongAlign-10k数据集专注于长文本场景下的大语言模型对齐。它包含1万条长度在8k到64k之间的长指令数据,并提供了相应的训练策略,例如打包(带损失权重)和排序批处理。为了评估真实场景下的长文本处理能力,LongAlign-10k还引入了LongBench-Chat,用于评估模型在10k到100k长度查询上的指令遵循能力。此外,LongAlign-10k还开源了一系列模型,这些模型均扩展了上下文窗口,并提供了基础模型和经过LongAlign训练的聊天模型。
创建时间:
2024-07-19



