LongWriter-V22k

Name: LongWriter-V22k
Creator: 清华大学
Published: 2025-02-21 02:47:36
License: 暂无描述

arXiv2025-02-21 更新2025-02-22 收录

下载链接：

https://github.com/THU-KEG/LongWriter-V

下载链接

链接失效反馈

官方服务：

资源简介：

LongWriter-V22k是由清华大学知识工程实验室收集的一个数据集，包含22,158个示例，每个示例包含多个输入图像、一个指令和相应的输出，输出长度从0到10,000词不等。该数据集通过两个阶段收集：首先是从MMEvol数据集中筛选出长输出指令，并通过LongWrite Agent-V管道生成对应的长时间文本作为SFT数据；其次是收集人类对VLM输出的细粒度修正，用于DPO数据。数据集旨在提高视觉语言模型的长文本生成能力。

提供机构：

清华大学

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

为了克服现有大型视觉语言模型（LVLMs）在生成超长文本时的局限性，LongWriter-V22k数据集应运而生。该数据集包含22,158个示例，每个示例包含多个输入图像、一个指令和对应的长文本输出，输出长度从0到10,000字不等。为了构建这一数据集，研究人员采用了分阶段的方法，首先使用视觉语言模型（VLMs）生成文本大纲，然后根据大纲分步骤生成完整的文本。为了提高长文本生成的质量，研究人员采用了直接偏好优化（DPO）方法，并通过迭代DPO（IterDPO）来提高利用人类反馈的效率。

特点

LongWriter-V22k数据集的主要特点在于其包含超长文本输出的示例，这有助于VLMs学习生成更长的文本。此外，该数据集还包含了单图像和多图像输入，以及回译指令，从而丰富了输入数据的多样性。IterDPO方法的使用使得模型能够学习到更精细的人类反馈，从而提高长文本生成的质量。

使用方法

使用LongWriter-V22k数据集进行监督微调（SFT）可以提高VLMs的输出长度。首先，将数据集中的视觉指令和文本指令输入到VLMs中，生成文本大纲；然后，根据大纲分步骤生成完整的文本。在SFT阶段之后，可以使用IterDPO方法对模型进行优化，以提高长文本生成的质量。最终，使用MMLongBench-Write基准测试来评估VLMs在长文本生成任务上的性能。

背景与挑战

背景概述

在视觉语言模型（LVLMs）领域，尽管现有的模型能够处理高达128k视觉和文本标记的输入，但在生成超过1,000字的连贯输出方面仍然存在困难。这一局限性的主要原因是监督微调（SFT）过程中缺乏长输出示例。为了解决这个问题，清华大学的研究团队引入了LongWriter-V22k数据集，该数据集包含22,158个示例，每个示例都有多个输入图像、指令和相应的输出，输出长度从0到10,000字不等。此外，为了实现与输入图像保持高度一致的长输出，研究人员采用了直接偏好优化（DPO）技术。鉴于收集长输出（例如3,000字）的人工反馈成本高昂，研究团队提出了IterDPO方法，该方法将长输出分解成段，并使用迭代校正来形成与原始输出的偏好对。此外，他们还开发了MMLongBench-Write基准测试，包括六个任务，用于评估VLMs的长生成能力。训练有素的7B参数模型在MMLongBench-Write基准测试中取得了令人印象深刻的性能，超过了像GPT-4o这样的大型专用模型。

当前挑战

尽管LongWriter-V22k数据集在解决VLMs长输出能力方面取得了重要进展，但仍面临一些挑战。首先，数据集规模可能不足以完全捕捉长输出生成任务的多样性，这可能限制模型的鲁棒性和泛化能力。其次，当前数据集和基准测试仅限于英语和中文，这限制了模型在多语言环境中的性能评估。最后，尽管IterDPO方法显著提高了利用人类反馈的效率，但收集高质量的人类校正仍然耗时且成本高昂，这限制了方法的可扩展性和训练数据的更新频率。

常用场景

经典使用场景

LongWriter-V22k数据集主要用于提升视觉语言模型（VLMs）在生成超长文本方面的能力，其经典的使用场景包括但不限于：1）创意写作，如根据视觉提示生成详细的故事或文章；2）专业写作，如根据视觉数据撰写全面的报告或分析；3）医疗报告，如根据X光片撰写诊断报告；4）旅行指南，如撰写旅行体验的旅行指南；5）PPT脚本，如根据PPT图片撰写讲座脚本。

实际应用

LongWriter-V22k数据集在实际应用场景中具有广泛的应用前景，例如：1）在创意写作领域，可以用于自动生成小说、剧本等长文本内容；2）在专业写作领域，可以用于自动生成报告、论文等长文本内容；3）在医疗领域，可以用于自动生成诊断报告、病历等长文本内容；4）在旅游领域，可以用于自动生成旅游指南、景点介绍等长文本内容；5）在教育领域，可以用于自动生成课件、讲义等长文本内容。

衍生相关工作

LongWriter-V22k数据集的提出衍生了一系列相关研究工作，例如：1）LongWriter，通过调整SFT数据的输出长度分布，观察模型输出长度的变化；2）IterDPO，通过迭代地使用每个修订段作为首选响应，有效提高了长输出文本的质量；3）MMLongBench-Write，一个包含六个任务的基准，用于评估VLMs的长期生成能力。这些相关研究工作为进一步提升VLMs的长期生成能力提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集