LongCite-45k

Name: LongCite-45k
Creator: Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
Published: 2024-09-05 13:11:29
License: 暂无描述

Hugging Face2024-09-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/THUDM/LongCite-45k

下载链接

链接失效反馈

官方服务：

资源简介：

LongCite-45k数据集包含44,600个长上下文问答实例，这些实例与句子级别的引用配对（包括英语和中文，最多可达128,000字）。该数据集支持训练长上下文的大型语言模型（LLMs）以生成响应并在单个输出中生成细粒度的引用。每个实例由指令、长上下文（分为句子）、用户查询以及带有句子级别引用的答案组成。

提供机构：

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University

创建时间：

2024-09-02

搜集汇总

数据集介绍

构建方式

LongCite-45k数据集的构建基于长上下文问答任务的需求，旨在支持生成细粒度引用的长上下文语言模型训练。该数据集包含44,600个长上下文问答实例，每个实例由指令、长上下文（分为句子）、用户查询以及带有句子级引用的答案组成。数据集的构建过程通过精心设计的标注流程，确保每个实例的上下文长度可达128,000词，涵盖中英双语，以满足长上下文生成任务的需求。

特点

LongCite-45k数据集的核心特点在于其长上下文与细粒度引用的结合。每个实例不仅包含丰富的上下文信息，还提供了句子级的引用标注，使得模型能够在生成答案时精确引用相关上下文。数据集支持中英双语，上下文长度可达128,000词，适用于训练长上下文语言模型。此外，数据集还提供了基于GLM-4-9B和Llama-3.1-8B的预训练模型，进一步增强了引用生成能力。

使用方法

LongCite-45k数据集的使用方法主要围绕长上下文问答与引用生成任务展开。用户可以通过加载数据集中的JSONL文件，获取包含指令、上下文、查询及引用答案的实例。数据集适用于训练和评估长上下文语言模型，特别是那些需要生成细粒度引用的模型。用户还可以利用开源的预训练模型（如LongCite-glm4-9b和LongCite-llama3.1-8b）进行迁移学习或微调，以提升模型在长上下文生成任务中的表现。

背景与挑战

背景概述

LongCite-45k数据集由清华大学的研究团队于2024年发布，旨在解决长上下文问答（QA）中的细粒度引用生成问题。该数据集包含44,600个长上下文问答实例，支持中英双语，上下文长度可达128,000词。其核心研究问题在于如何训练大语言模型（LLMs）在生成回答的同时，能够准确引用长文本中的具体句子。这一研究为长文本理解和引用生成领域提供了重要的数据支持，推动了相关技术的进步。

当前挑战

LongCite-45k数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，长上下文问答中的引用生成要求模型不仅能够理解复杂的上下文信息，还需精准定位并引用相关句子，这对模型的语义理解和推理能力提出了极高要求。其次，在数据集构建过程中，如何高效处理和分析超长文本，并确保引用标注的准确性和一致性，是数据收集和标注阶段的主要技术难点。这些挑战为后续研究提供了重要的改进方向。

常用场景

经典使用场景

LongCite-45k数据集在长文本问答和引用生成领域具有重要应用。其经典使用场景包括训练大型语言模型（LLMs）以生成包含细粒度引用的长文本回答。通过提供长达128,000字的长上下文问答实例，该数据集能够帮助模型在生成回答时精确引用相关句子，从而提升回答的可信度和可解释性。

衍生相关工作

LongCite-45k数据集衍生了一系列经典工作，如基于该数据集训练的LongCite-glm4-9b和LongCite-llama3.1-8b模型。这些模型在长文本问答和引用生成任务中表现出色，进一步推动了相关领域的研究。此外，该数据集还为其他研究者提供了基准数据，促进了长文本处理技术的创新和发展。

数据集最近研究