five

LongWriter-6k 长上下文输出数据集

收藏
超神经2024-08-23 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/33611
下载链接
链接失效反馈
官方服务:
资源简介:
LongWriter-6k 数据集由清华大学和智谱 AI 于 2024 年推出,包含 6,000 篇 SFT 数据,输出长度为 2k-32k 字(包括英文和中文),可支持训练 LLM,将其最大输出窗口大小扩展至 10,000+ 字。相关论文成果为「LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs」。

LongWriter-6k Dataset was released in 2024 by Tsinghua University and Zhipu AI. It contains 6,000 SFT (Supervised Fine-Tuning) data samples, with output lengths ranging from 2,000 to 32,000 words covering both English and Chinese. This dataset can be utilized to train large language models (LLMs) to expand their maximum generation window size to over 10,000 words. The corresponding academic paper is titled "LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs".
创建时间:
2024-08-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LongWriter-6k 长上下文输出数据集由清华大学和智谱AI于2024年发布,包含6,000条SFT数据,输出长度覆盖2k至32k字(含中英文),用于训练大语言模型以支持生成超过10,000字的长文本。该数据集对应论文《LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs》。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务