ShareGPT 数据集

github2025-03-04 更新2025-03-05 收录

下载链接：

https://github.com/Argobell/data4vlmsft

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于Streamlit的Web应用，用于生成ShareGPT格式的多模态数据集，包含图像和文本。

A Streamlit-based web application for generating multimodal datasets in the ShareGPT format, which contain both images and text.

创建时间：

2025-03-04

原始信息汇总

ShareGPT 数据集生成器

数据集名称：ShareGPT 数据集生成器
数据集描述：一个基于Streamlit的Web应用，用于生成ShareGPT格式的多模态数据集（图像+文本）。
功能特性：
- 从Hugging Face数据集加载多模态数据。
- 支持自定义Instructions。
- 自动转换为ShareGPT格式。
- 生成JSON格式数据集文件。
- 提供数据集下载功能。
- 内置图像预览功能。
使用说明：
- 设置数据集路径和图像保存目录。
- 设置要处理的样本数量。
- 可添加自定义Instructions（可选）。
- 点击"加载数据集"预览数据。
- 点击"生成数据集"创建ShareGPT格式数据集。
安装依赖：
- 使用conda： bash conda create -n venv python=3.10 pip install -r requirements.txt
- 使用uv（推荐）： bash uv venv uv sync
运行应用：
- 克隆项目到本地，创建data文件夹用于存放数据集。 bash git clone https://github.com/Argobell/data4vlmsft.git mkdir data
- 从Hugging Face或者Modelscope下载数据集放入data目录（也可以自定义数据集）。
- 运行以下命令启动应用： bash streamlit run app.py
项目结构：
- app.py：Streamlit Web应用入口。
- src/dataset_builder.py：数据集构建核心逻辑。
- utils/convert2sharegpt.py：ShareGPT格式转换。
- utils/random_instruction.py：随机Instructions生成。
示例截图：

搜集汇总

数据集介绍

构建方式

ShareGPT数据集的构建，是基于Streamlit框架开发的一个Web应用，其主要通过加载Hugging Face或Modelscope提供的多模态数据（图像+文本），进而支持用户自定义Instructions，并自动转换为ShareGPT格式，最终生成JSON格式数据集文件。这一过程融合了数据加载、自定义指令设置、格式转换等多个环节，体现了构建过程的灵活性与可定制性。

特点

该数据集的特点在于其多模态数据的处理能力，不仅支持图像和文本的结合，而且允许用户自定义Instructions，增加了数据集的适用性和灵活性。此外，数据集以JSON格式存储，便于分享和使用。内置的图像预览功能更是提升了用户体验，使得数据集的可视化变得更为直观。

使用方法

使用该数据集时，用户首先需在侧边栏设置数据集路径和图像保存目录，随后设定处理样本的数量，并可选择添加自定义Instructions。通过点击'加载数据集'按钮，用户可预览数据，而'生成数据集'按钮则用于创建ShareGPT格式的数据集。安装依赖和运行应用的过程同样简便，遵循项目提供的指引即可快速上手。

背景与挑战

背景概述

ShareGPT 数据集是一个旨在促进自然语言处理和多模态学习研究的多模态数据集生成器。该数据集的创建体现了研究者在构建可共享、可重用的语言模型训练数据方面的不懈努力，其核心在于生成融合了图像与文本的数据集，以支持多模态交互的深入探索。自推出以来，ShareGPT 数据集已逐渐成为自然语言处理领域中一个重要的资源，为研究人员提供了一种便捷的方式来构建和测试多模态语言模型。该数据集的创建时间为近期，由相关研究团队或机构开发，并在学术界和工业界产生了广泛影响。

当前挑战

尽管ShareGPT 数据集为多模态学习提供了强有力的数据支撑，但在构建和使用过程中仍面临诸多挑战。首先，确保图像与文本的准确对应是一个关键问题，这要求在数据预处理阶段进行精确的匹配和质量控制。其次，数据集的多样性和代表性也是构建过程中的一大挑战，必须确保数据能够覆盖广泛的使用场景和任务类型。此外，数据集的规模和生成效率也是不可忽视的问题，需要在保证数据质量的同时，提高数据处理和转换的效率。

常用场景

经典使用场景

在多模态数据研究的领域内，ShareGPT 数据集生成器以其独特的格式转换功能，成为学者们的常用工具。该工具能从Hugging Face等平台加载图像与文本的多模态数据，并允许用户自定义Instructions，进而自动转换为ShareGPT格式，生成JSON格式的数据集文件，以供后续分析使用。

解决学术问题

ShareGPT 数据集解决了多模态数据处理中的格式转换难题，它不仅降低了数据预处理的技术门槛，还提高了数据集构建的效率。对于学术研究者而言，这意味着可以更快速地获得适用于模型训练和评估的标准格式数据集，从而推动相关领域的学术研究进展。

衍生相关工作

基于ShareGPT数据集生成器的便捷性和灵活性，已经衍生出一系列相关的工作，包括但不限于多模态数据集的创建、预训练模型的开发以及针对特定任务的模型微调。这些工作不仅扩展了ShareGPT数据集的应用范围，也为多模态学习领域带来了新的研究方向和突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集