Spinning the Golden Thread (SGT)

Name: Spinning the Golden Thread (SGT)
Creator: 新加坡科技设计大学
Published: 2024-09-10 10:43:36
License: 暂无描述

arXiv2024-09-10 更新2024-09-12 收录

下载链接：

https://github.com/mozhu621/SGT

下载链接

链接失效反馈

官方服务：

资源简介：

Spinning the Golden Thread (SGT) 数据集由新加坡科技设计大学创建，旨在评估长上下文语言模型在长文本生成任务中的表现。该数据集包含800个示例，涵盖16K和32K两种文本长度，涉及日记写作、菜单设计、摩天大楼设计和城市规划等多个场景。数据集通过严格的任务定义和特定的任务指令，测试模型在生成长文本时对特定事件或约束的包含能力。SGT数据集的应用领域包括自然语言处理中的文档摘要、创意写作和综合问答等，旨在解决现有数据集在超长文本生成任务中的不足。

The Spinning the Golden Thread (SGT) dataset was developed by the Singapore University of Technology and Design (SUTD) to evaluate the performance of long-context language models in long-text generation tasks. Comprising 800 examples, the dataset includes two text length variants: 16K and 32K, covering diverse scenarios such as diary writing, menu design, skyscraper design, and urban planning. Through strict task definitions and specific task instructions, it tests a model's capability to incorporate specific events or constraints when generating long-form text. The application areas of the SGT dataset cover document summarization, creative writing, and comprehensive question answering in the field of natural language processing, aiming to address the shortcomings of existing datasets in ultra-long text generation tasks.

提供机构：

新加坡科技设计大学

创建时间：

2024-09-04

原始信息汇总

LongGenBench: Benchmarking Long-Form Generation in Language Models

概述

LongGenBench 是一个用于评估语言模型（LMs）在需要连贯、长上下文输出的任务中的长文本生成能力的基准测试。传统基准测试通常关注短上下文任务或特定的信息检索，如Needle-in-a-Haystack（NIAH）测试。相比之下，LongGenBench旨在测试LMs在生成扩展文本序列时的连贯性和上下文丰富性，同时遵循涉及各种约束的详细提示指令。

基准设计

基准测试评估了10个长上下文LMs在四个场景中的表现，每个场景包含多个子场景，每个子场景根据提示指令的类型（单实例、范围和周期性）而变化。这些场景模拟了城市规划、日记条目或菜单规划等现实世界任务，其中LM必须将特定事件、细节或约束整合到长文本序列中。

评估重点

SGT特别强调模型在长文本生成任务中遵循复杂指令的能力，挑战模型在16K和32K标记的提示长度下保持连贯性和相关性。这种设置测试了模型在长文本中保持连贯性和相关性的耐力，这是自动化内容创建、学术摘要和叙事生成等领域应用的关键指标。

运行

克隆仓库：

bash git clone git@github.com:mozhu621/SGT.git cd SGT pip install -r requirements.txt

评估：

bash cd ./Evalution bash Run_short_all_small_model.sh bash Run_short_all_large_model.sh bash Run_long_all_small_model.sh bash Run_long_all_large_model.sh

静态分析：

bash cd ./Evalution/results 运行所有单元格 --- static.ipynb

引用

如果您在研究中使用了此工作，请引用我们的论文： bibtex @article{wu2024spinning, title={Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models}, author={Wu, Yuhao and Hee, Ming Shan and Hu, Zhiqing and Lee, Roy Ka-Wei}, journal={arXiv preprint arXiv:2409.02076}, year={2024} }

搜集汇总

数据集介绍

构建方式

Spinning the Golden Thread (SGT) 数据集的构建旨在填补长期语境语言模型在长文本生成评估方面的空白。该数据集通过设计四个不同的场景（日记写作、菜单设计、摩天大楼设计和城市规划），以及三种类型的任务指令（单个指令、范围指令和周期性指令），来评估模型生成超长文本并遵循指令的能力。数据集包含两种不同的生成长度设置（16K和32K），确保了评估的全面性。

特点

Spinning the Golden Thread (SGT) 数据集的特点在于其设计的复杂性，它要求模型在超长文本生成任务中不仅要生成连贯的文本，还要确保文本内容符合特定的指令。数据集的评估指标包括任务完成度、特定任务指令完成度和输出长度，这些指标共同构成了对模型性能的全面评价。此外，数据集还通过比较模型在处理长输入和长输出方面的表现，揭示了模型在长文本生成中的潜在局限性。

使用方法

Spinning the Golden Thread (SGT) 数据集的使用方法包括选择一个场景、指定任务指令、生成评估数据，以及使用模型生成文本并评估其性能。首先，从四个场景中选择一个，然后使用模板库生成任务指令，接着将所有指令合成一个完整的指令集，最后使用模型生成文本并评估其完成所有子任务的程度。数据集提供了详细的评估流程，包括使用长语境语言模型完成任务指令、将答案分割成子任务、根据检查集中的指令识别对应的子任务，并最终计算每个子任务的完成分数。

背景与挑战

背景概述

随着自然语言处理（NLP）领域的飞速发展，长上下文语言模型（LLMs）在处理和生成长文本序列的能力上取得了显著进步。然而，当前用于评估这些模型能力的基准测试主要集中在模型对长文本序列的理解和检索能力上，而忽视了长文本生成质量这一关键方面。为了填补这一空白，新加坡科技设计大学的研究团队提出了一个名为Spinning the Golden Thread (SGT)的新基准测试，旨在评估长上下文语言模型在生成长文本方面的能力。该数据集由四个不同的场景组成：日记写作、菜单设计、摩天大楼设计和城市规划，每个场景都包含了针对长文本生成任务的特定事件或约束。SGT数据集通过评估模型在遵循指令和生成连贯长文本方面的能力，为长上下文语言模型的评估提供了新的视角。

当前挑战

SGT数据集在评估长上下文语言模型的长文本生成能力方面面临着诸多挑战。首先，当前缺乏针对超长文本（≥ 16K tokens）的评估数据集，现有的数据集大多针对较短文本输出（≤ 2K tokens）。其次，没有可靠的方法来评估这些长文本序列的质量，研究人员通常依赖手动评估，这种方法虽然全面但成本高昂且不适用于大规模评估。此外，随着输入上下文窗口的加长，长文本生成任务将自然产生更长的序列，进一步扩大了现有数据集的差距。最后，随着生成的文本长度增加，所有模型的表现都会显著下降，这表明当前的长上下文语言模型在处理超长文本生成任务时存在不足。

常用场景

经典使用场景

Spinning the Golden Thread (SGT) 数据集主要用于评估长上下文语言模型（LLMs）在长文本生成任务中的能力。该数据集通过设计需要模型遵循指令的复杂任务来评估模型在生成文本时的质量和对指令的遵守程度。例如，模型可能需要生成一个包含特定事件或约束的长文本，如设计一个包含特定楼层的摩天大楼或规划一个城市布局。SGT 数据集包含四种不同的场景：日记写作、菜单设计、摩天大楼设计和城市规划，每种场景都有短版本和长版本，以及三种类型的任务指令：单一指令、范围指令和周期性指令。

实际应用

SGT 数据集在实际应用中可用于评估和改进长上下文语言模型在长文本生成任务中的能力。例如，在文档摘要、创意写作和问答系统等应用中，需要生成高质量的长文本。通过使用 SGT 数据集进行评估，研究人员和开发人员可以更好地了解模型在处理这些任务时的性能，并据此进行模型的选择和优化。此外，SGT 数据集还可以用于开发新的长文本生成模型，以更好地满足实际应用的需求。

衍生相关工作

SGT 数据集的引入为长文本生成任务的评估和研究提供了新的思路和方法。基于 SGT 数据集的研究可以帮助我们更好地理解长上下文语言模型在处理长文本生成任务时的局限性和改进方向。此外，SGT 数据集还可以作为其他长文本生成任务评估基准的参考和借鉴，推动长文本生成技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集