LongAlign-10k
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/THUDM/LongAlign-10k?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
LongAlign-10k数据集专注于长文本场景下的大语言模型对齐。它包含1万条长度在8k到64k之间的长指令数据,并提供了相应的训练策略,例如打包(带损失权重)和排序批处理。为了评估真实场景下的长文本处理能力,LongAlign-10k还引入了LongBench-Chat,用于评估模型在10k到100k长度查询上的指令遵循能力。此外,LongAlign-10k还开源了一系列模型,这些模型均扩展了上下文窗口,并提供了基础模型和经过LongAlign训练的聊天模型。
提供机构:
THUDM
创建时间:
2024-07-19



