Long Multi-hop Instruction-Tuning dataset (LongMIT)
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/WowCZ/LongMIT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了提升大型语言模型在长上下文情境下的处理能力而设计的人工合成数据集,通过多跳指令生成来实现这一目标。经GPT-4o验证,该数据集在保留率上超过90%,显示出其高质量和泛用性。该数据集的规模横跨9个领域及2种语言,其任务是针对长上下文任务进行指令调整。
This synthetic dataset is designed to enhance the long-context processing capabilities of large language models (LLMs), which is realized through multi-hop instruction generation. Verified by GPT-4o, the dataset has a retention rate exceeding 90%, demonstrating its high quality and generalizability. Spanning 9 domains and 2 languages, this dataset focuses on instruction tuning for long-context tasks.
搜集汇总
背景与挑战
背景概述
LongMIT是一个为提升大型语言模型长上下文处理能力而设计的人工合成数据集,具有高质量(GPT-4o验证保留率超90%)和广泛适用性(覆盖9个领域和2种语言),主要用于长上下文任务的指令调整。
以上内容由遇见数据集搜集并总结生成



