Spinning the Golden Thread (SGT)

Name: Spinning the Golden Thread (SGT)
Creator: 新加坡科技设计大学
Published: 2024-09-04 01:25:54
License: 暂无描述

arXiv2024-09-04 更新2024-09-06 收录

下载链接：

https://arxiv.org/abs/2409.02076v1

下载链接

链接失效反馈

官方服务：

资源简介：

Spinning the Golden Thread (SGT)数据集由新加坡科技设计大学创建，旨在评估长文本生成模型的能力。该数据集包含800个条目，涵盖多种文本长度（16K和32K）和不同场景，如日记写作、菜单设计、摩天大楼设计和城市规划。数据集的创建过程包括设计特定任务指令和评估指标，以确保生成文本的质量和符合性。SGT数据集主要应用于自然语言处理任务，如文档摘要、创意写作和综合问答，旨在解决长文本生成中的质量和一致性问题。

The Spinning the Golden Thread (SGT) dataset was created by the Singapore University of Technology and Design (SUTD) to assess the capabilities of long-text generation models. Comprising 800 entries, this dataset covers diverse text lengths (16K and 32K) across various scenarios including diary writing, menu design, skyscraper design, and urban planning. The development of the SGT dataset includes designing task-specific instructions and evaluation metrics to ensure the quality and compliance of the generated text. The SGT dataset is primarily applied to natural language processing (NLP) tasks such as document summarization, creative writing, and comprehensive question answering, aiming to address the quality and consistency issues in long-text generation.

提供机构：

新加坡科技设计大学

创建时间：

2024-09-04

搜集汇总

数据集介绍

构建方式

Spinning the Golden Thread (SGT) 数据集的构建旨在填补当前长文本生成评估的空白。该数据集要求长上下文语言模型 (LLM) 在生成的长文本序列中包含特定事件或约束，并评估模型将这些元素融入文本的能力。数据集包含了四个不同的场景：日记写作、菜单设计、摩天大楼设计和城市规划，每个场景都有三个子场景，分别对应三种类型的提示指令：单个指令、范围指令和周期性指令。数据集还提供了两种不同的生成长度设置：16K 和 32K。通过这种方式，SGT 为评估长上下文语言模型在长文本生成任务中的表现提供了一个全面的基准。

使用方法

使用 Spinning the Golden Thread (SGT) 数据集进行评估的方法包括以下几个步骤：首先，使用长上下文语言模型 (LLM) 完成任务指令并获取答案。然后，根据需要评估的检查集中的指令，识别答案中对应的子任务。最后，通过 eval(Ai, Ti) 评估每个子任务来计算最终的完成分数。这种方法不仅能够有效地评估长上下文语言模型在长文本生成任务中的表现，还可以为模型的改进提供有价值的反馈。

背景与挑战

背景概述

随着自然语言处理领域中大型语言模型（LLMs）的发展，其对长文本序列的处理和生成能力得到了显著提升。然而，现有的评估方法主要集中于对模型处理和理解长文本输入的能力，而忽略了长文本生成的质量评估。为了填补这一空白，新加坡科技与设计大学的Wu Yuhao等人提出了Spinning the Golden Thread (SGT)数据集，旨在评估模型在生成长文本时遵循指令的能力。该数据集通过四个不同的场景（日记写作、菜单设计、摩天大楼设计和城市规划）和三种类型的指令（单例、范围和周期性）来评估模型。SGT数据集的创建旨在解决长文本生成任务中的关键问题，即如何确保生成的文本不仅内容丰富，而且能够遵循特定的指令。此外，SGT数据集还考虑了不同文本长度（16K和32K）下的生成任务，为评估模型在不同文本深度范围下的表现提供了基础。

当前挑战

SGT数据集的引入为长文本生成领域带来了新的挑战。首先，现有的评估数据集大多针对较短的文本输出（≤ 2K tokens），难以满足超长文本生成（≥ 16K tokens）的需求。其次，评估长文本序列的质量缺乏可靠的方法，手动评估成本高昂且难以大规模进行，而使用大型语言模型作为评估工具的“LLM-as-a-judge”方法则存在解释性差的问题。此外，SGT数据集的评估结果表明，即使是当前最先进的语言模型在处理超长文本生成任务时也存在显著的性能下降，尤其是在输出长度超过4,000 tokens时。这些挑战表明，现有的长文本生成模型在遵循指令和生成高质量长文本方面仍有很大的改进空间。

常用场景

经典使用场景

在语言模型评估中，Spinning the Golden Thread (SGT) 数据集被广泛用于评估模型在生成长文本序列时的质量和对指令的遵守程度。该数据集通过设计四个不同的场景（日记写作、菜单设计、摩天大楼设计和城市规划），以及三种类型的指令（单个指令、范围指令和周期性指令），测试模型在生成超长文本时是否能够包含特定的元素或约束。SGT 数据集的引入填补了现有长文本生成评估基准的空白，为模型评估提供了一个新的维度。

解决学术问题

SGT 数据集解决了现有评估基准在长文本生成任务中缺乏对生成内容质量和指令遵守程度评估的问题。传统的评估方法如人工评估成本高且难以扩展，而使用大型语言模型进行评估则缺乏可解释性。SGT 数据集通过设计严格的顺序任务和详细的场景，提供了一个可靠的评估方法，使得研究人员能够更全面地评估模型在长文本生成任务中的表现。

实际应用

SGT 数据集在实际应用中可以用于评估和改进语言模型在长文本生成任务中的表现。通过对模型在 SGT 数据集上的表现进行分析，研究人员可以识别模型在长文本生成任务中的优势和劣势，从而有针对性地进行模型改进。此外，SGT 数据集还可以用于开发更高级的评估工具和算法，以进一步提高模型在长文本生成任务中的表现。

数据集最近研究