LongWriter-V-22K

github2025-02-21 更新2025-02-22 收录

下载链接：

https://github.com/THU-KEG/LongWriter-V

下载链接

链接失效反馈

官方服务：

资源简介：

README内容中未提供数据集中文描述，需要翻译英文描述。

No Chinese description of the dataset is provided in the README file, and the English description needs to be translated.

创建时间：

2025-02-17

原始信息汇总

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

数据集概述

数据集名称：LongWriter-V
数据集描述：LongWriter-V 是一个用于支持视觉语言模型中超长和高保真生成的数据集。
数据集构成：
- LongWriter-V-22K：用于训练的数据集，可通过 Hugging Face datasets 下载。
- MMLongBench-Write：用于评估长输出质量和输出长度的评估基准。
- LongWrite-V-Ruler：用于评估模型最大输出长度的轻量级压力测试。
训练工具：可以使用 LLaMA-Factory 进行模型训练，官方 Qwen2_VL 训练脚本可用于训练。
评估工具：提供评估代码，可通过运行特定脚本来获取评估结果。

数据集链接

模型

LongWriter-V-7B：基于 Qwen2.5-VL-7B-Instruct 训练。
LongWriter-V-7B-DPO：基于 Qwen2.5-VL-7B-Instruct 训练，采用 DPO。
LongWriter-V-72B：基于 Qwen2.5-VL-72B-Instruct 训练。

评估结果

提供了在 MMLongBench-Write 和 LongWrite-V-Ruler 上的评估结果。

使用说明

使用前需配置 API key，具体配置在 config.py 中进行。

Cases

展示了 LongWriter-V-7B 对随机测试提示的输出示例。

以上是关于 LongWriter-V 数据集的概述，包括数据集的构成、链接、模型、评估结果和使用说明。

搜集汇总

数据集介绍

构建方式

LongWriter-V-22K数据集的构建是通过THU-KEG团队所开发的自动化超长输出数据构建管道LongWriter-Agent-V实现的。该管道能够根据指定的API key自动生成超长的文本输出，进而形成数据集。构建过程中，采用了基于Qwen2.5-VL模型的训练脚本，并通过LLaMA-Factory进行模型训练，确保数据集的质量和一致性。

使用方法

使用LongWriter-V-22K数据集时，用户可以通过Hugging Face的数据集仓库下载并保存数据。在模型训练方面，用户可以使用LLaMA-Factory和官方的Qwen2_VL训练脚本进行训练。对于模型评估，提供了eval目录下的代码，用户可以根据需要运行相应的Python脚本，配置OpenAI API key后即可获得评估结果。数据集的使用不仅限于模型训练和评估，还包括了数据集构建和部署的相关文档和代码。

背景与挑战

背景概述

LongWriter-V-22K数据集是在2023年由THU-KEG团队创建的，旨在推动视觉语言模型在超长和高保真度生成方面的能力。该数据集的核心研究问题是提升视觉语言模型在生成超长文本方面的性能，以适应教育、科研等领域的需求。LongWriter-V-22K的创建标志着视觉语言模型研究的一个重要方向，对相关领域产生了深远的影响。

当前挑战

在构建LongWriter-V-22K数据集的过程中，研究团队面临了多个挑战。首先，如何确保生成的文本具有高保真度并且长度符合教育场景的需求是一个关键挑战。其次，构建一个自动化且高效的数据构造管道，以处理大量的图像和文本数据，也是研究团队必须解决的问题。此外，如何在保证数据质量的同时，处理数据集中的潜在偏见，以及如何评价模型在超长文本生成方面的性能，都是该数据集面临的挑战。

常用场景

经典使用场景

LongWriter-V-22K数据集的经典使用场景主要在于支持超长和高保真的视觉语言模型生成。该数据集被广泛应用于训练能够生成详细描述、讲座稿、文章等长文本的模型，尤其适用于需要根据图像输入生成相应长文本的教育和培训场景。

解决学术问题

LongWriter-V-22K数据集解决了学术研究中对于超长文本生成的需求问题，特别是在视觉语言模型领域，它提供了丰富的训练样本，使得模型能够学习如何生成结构化、教育性和启发性兼备的长文本输出，这对于提升模型在生成复杂内容的能力上具有重要意义。

实际应用

在实际应用中，LongWriter-V-22K数据集可以用于开发教育辅助工具，如自动生成课程讲义、文章摘要、研究报告等，它也可以被集成到在线学习平台中，为学生提供个性化的学习材料和互动体验。

数据集最近研究