LongWriter-V22k
收藏arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://github.com/THU-KEG/LongWriter-V
下载链接
链接失效反馈官方服务:
资源简介:
LongWriter-V22k是由清华大学知识工程实验室收集的一个数据集,包含22,158个示例,每个示例包含多个输入图像、一个指令和相应的输出,输出长度从0到10,000词不等。该数据集通过两个阶段收集:首先是从MMEvol数据集中筛选出长输出指令,并通过LongWrite Agent-V管道生成对应的长时间文本作为SFT数据;其次是收集人类对VLM输出的细粒度修正,用于DPO数据。数据集旨在提高视觉语言模型的长文本生成能力。
提供机构:
清华大学
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
为了克服现有大型视觉语言模型(LVLMs)在生成超长文本时的局限性,LongWriter-V22k数据集应运而生。该数据集包含22,158个示例,每个示例包含多个输入图像、一个指令和对应的长文本输出,输出长度从0到10,000字不等。为了构建这一数据集,研究人员采用了分阶段的方法,首先使用视觉语言模型(VLMs)生成文本大纲,然后根据大纲分步骤生成完整的文本。为了提高长文本生成的质量,研究人员采用了直接偏好优化(DPO)方法,并通过迭代DPO(IterDPO)来提高利用人类反馈的效率。
特点
LongWriter-V22k数据集的主要特点在于其包含超长文本输出的示例,这有助于VLMs学习生成更长的文本。此外,该数据集还包含了单图像和多图像输入,以及回译指令,从而丰富了输入数据的多样性。IterDPO方法的使用使得模型能够学习到更精细的人类反馈,从而提高长文本生成的质量。
使用方法
使用LongWriter-V22k数据集进行监督微调(SFT)可以提高VLMs的输出长度。首先,将数据集中的视觉指令和文本指令输入到VLMs中,生成文本大纲;然后,根据大纲分步骤生成完整的文本。在SFT阶段之后,可以使用IterDPO方法对模型进行优化,以提高长文本生成的质量。最终,使用MMLongBench-Write基准测试来评估VLMs在长文本生成任务上的性能。
背景与挑战
背景概述
在视觉语言模型(LVLMs)领域,尽管现有的模型能够处理高达128k视觉和文本标记的输入,但在生成超过1,000字的连贯输出方面仍然存在困难。这一局限性的主要原因是监督微调(SFT)过程中缺乏长输出示例。为了解决这个问题,清华大学的研究团队引入了LongWriter-V22k数据集,该数据集包含22,158个示例,每个示例都有多个输入图像、指令和相应的输出,输出长度从0到10,000字不等。此外,为了实现与输入图像保持高度一致的长输出,研究人员采用了直接偏好优化(DPO)技术。鉴于收集长输出(例如3,000字)的人工反馈成本高昂,研究团队提出了IterDPO方法,该方法将长输出分解成段,并使用迭代校正来形成与原始输出的偏好对。此外,他们还开发了MMLongBench-Write基准测试,包括六个任务,用于评估VLMs的长生成能力。训练有素的7B参数模型在MMLongBench-Write基准测试中取得了令人印象深刻的性能,超过了像GPT-4o这样的大型专用模型。
当前挑战
尽管LongWriter-V22k数据集在解决VLMs长输出能力方面取得了重要进展,但仍面临一些挑战。首先,数据集规模可能不足以完全捕捉长输出生成任务的多样性,这可能限制模型的鲁棒性和泛化能力。其次,当前数据集和基准测试仅限于英语和中文,这限制了模型在多语言环境中的性能评估。最后,尽管IterDPO方法显著提高了利用人类反馈的效率,但收集高质量的人类校正仍然耗时且成本高昂,这限制了方法的可扩展性和训练数据的更新频率。
常用场景
经典使用场景
LongWriter-V22k数据集主要用于提升视觉语言模型(VLMs)在生成超长文本方面的能力,其经典的使用场景包括但不限于:1)创意写作,如根据视觉提示生成详细的故事或文章;2)专业写作,如根据视觉数据撰写全面的报告或分析;3)医疗报告,如根据X光片撰写诊断报告;4)旅行指南,如撰写旅行体验的旅行指南;5)PPT脚本,如根据PPT图片撰写讲座脚本。
实际应用
LongWriter-V22k数据集在实际应用场景中具有广泛的应用前景,例如:1)在创意写作领域,可以用于自动生成小说、剧本等长文本内容;2)在专业写作领域,可以用于自动生成报告、论文等长文本内容;3)在医疗领域,可以用于自动生成诊断报告、病历等长文本内容;4)在旅游领域,可以用于自动生成旅游指南、景点介绍等长文本内容;5)在教育领域,可以用于自动生成课件、讲义等长文本内容。
衍生相关工作
LongWriter-V22k数据集的提出衍生了一系列相关研究工作,例如:1)LongWriter,通过调整SFT数据的输出长度分布,观察模型输出长度的变化;2)IterDPO,通过迭代地使用每个修订段作为首选响应,有效提高了长输出文本的质量;3)MMLongBench-Write,一个包含六个任务的基准,用于评估VLMs的长期生成能力。这些相关研究工作为进一步提升VLMs的长期生成能力提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



