five

LongAlign 10K 大模型长上下文对齐数据集

收藏
超神经2024-03-23 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30247
下载链接
链接失效反馈
官方服务:
资源简介:
LongAlign-10k 是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。

LongAlign-10k is a dataset proposed by Tsinghua University, designed to address the challenges faced by large language models (LLMs) in long-context alignment tasks. It contains 10,000 long instruction instances with lengths ranging from 8k to 64k.
创建时间:
2024-03-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LongAlign 10K 是一个由清华大学构建的大模型长上下文对齐数据集,包含10,000条长度在8k-64k之间的指令数据,旨在评估大模型在长上下文中的表现和对长指令的遵循能力。该数据集从多个领域获取素材,并利用Claude 2.1大模型生成多样化任务与答案。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务