Spinning the Golden Thread (SGT)
收藏LongGenBench: Benchmarking Long-Form Generation in Language Models
概述
LongGenBench 是一个用于评估语言模型(LMs)在需要连贯、长上下文输出的任务中的长文本生成能力的基准测试。传统基准测试通常关注短上下文任务或特定的信息检索,如Needle-in-a-Haystack(NIAH)测试。相比之下,LongGenBench旨在测试LMs在生成扩展文本序列时的连贯性和上下文丰富性,同时遵循涉及各种约束的详细提示指令。
基准设计
基准测试评估了10个长上下文LMs在四个场景中的表现,每个场景包含多个子场景,每个子场景根据提示指令的类型(单实例、范围和周期性)而变化。这些场景模拟了城市规划、日记条目或菜单规划等现实世界任务,其中LM必须将特定事件、细节或约束整合到长文本序列中。
评估重点
SGT特别强调模型在长文本生成任务中遵循复杂指令的能力,挑战模型在16K和32K标记的提示长度下保持连贯性和相关性。这种设置测试了模型在长文本中保持连贯性和相关性的耐力,这是自动化内容创建、学术摘要和叙事生成等领域应用的关键指标。
运行
克隆仓库:
bash git clone git@github.com:mozhu621/SGT.git cd SGT pip install -r requirements.txt
评估:
bash cd ./Evalution bash Run_short_all_small_model.sh bash Run_short_all_large_model.sh bash Run_long_all_small_model.sh bash Run_long_all_large_model.sh
静态分析:
bash cd ./Evalution/results 运行所有单元格 --- static.ipynb
引用
如果您在研究中使用了此工作,请引用我们的论文: bibtex @article{wu2024spinning, title={Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models}, author={Wu, Yuhao and Hee, Ming Shan and Hu, Zhiqing and Lee, Roy Ka-Wei}, journal={arXiv preprint arXiv:2409.02076}, year={2024} }




