five

LongAlign-10k

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/THUDM/LongAlign-10k
下载链接
链接失效反馈
官方服务:
资源简介:
LongAlign-10k数据集专注于长文本场景下的大语言模型对齐。它包含1万条长度在8k到64k之间的长指令数据,并提供了相应的训练策略,例如打包(带损失权重)和排序批处理。为了评估真实场景下的长文本处理能力,LongAlign-10k还引入了LongBench-Chat,用于评估模型在10k到100k长度查询上的指令遵循能力。此外,LongAlign-10k还开源了一系列模型,这些模型均扩展了上下文窗口,并提供了基础模型和经过LongAlign训练的聊天模型。
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作