Wan Juan

Name: Wan Juan
Creator: 上海人工智能实验室
Published: 2023-09-15 17:52:14
License: 暂无描述

arXiv2023-09-15 更新2024-06-21 收录

下载链接：

https://opendatalab.org.cn/WanJuan1.0

下载链接

链接失效反馈

官方服务：

资源简介：

万卷（Wan Juan）是一个大规模的多模态中英文数据集，由上海人工智能实验室创建。该数据集包含文本、图文和视频三种模态，总容量超过2TB，其中文本数据超过6亿文档，存储量超过1TB；图文数据处理成文档，总数超过2200万，数据大小超过200GB；视频文件超过1000个，数据大小超过900GB。数据来源于广泛的网络资源，经过算法处理和人工验证确保数据安全、高质量和价值对齐。万卷数据集支持大型模型训练，特别是在多模态任务中，如视频字幕和视频问答，显示出显著优势。

Wan Juan is a large-scale multilingual (Chinese and English) multimodal dataset developed by the Shanghai AI Laboratory. The dataset covers three modalities: text, image-text, and video, with a total capacity exceeding 2 TB. Specifically, the text data includes over 600 million documents occupying more than 1 TB of storage; the image-text data, processed into document format, totals over 22 million with a size exceeding 200 GB; and the video data consists of more than 1,000 files with a total size over 900 GB. The dataset is sourced from a wide range of web resources, and undergoes algorithmic processing and manual verification to ensure data security, high quality, and value alignment. Wan Juan supports the training of large-scale models, and exhibits notable advantages particularly in multimodal tasks such as video captioning and video question answering.

提供机构：

上海人工智能实验室

创建时间：

2023-08-21

搜集汇总

数据集介绍

构建方式

Wan Juan数据集是一个大规模的多模态数据集，包含中英两种语言的文本、图像-文本和视频数据。数据集的构建始于对互联网上多样化来源的数据进行收集，包括网页、百科全书、书籍、专利、教科书、考试题目等文本数据，以及新闻事件、人物、自然景观、社会生活等领域的图像-文本数据。视频数据则来源于中国媒体集团和上海媒体集团的高质量节目素材。构建过程中，研究团队通过精细设计的规则和算法对原始数据进行过滤和加工，确保内容的安全性和高质量，同时进行价值对齐处理，去除不良信息。

特点

Wan Juan数据集的特点在于其多模态数据的多样性、内容的安全性、高质量和价值对齐。具体而言，文本数据覆盖了6000万份文档，图像-文本数据超过2200万份文档，视频数据超过1000份文件，总数据量超过2TB。数据集在内容上涵盖了科技、文学、媒体、教育、法律等多个领域，为语言模型的训练和多种模态任务的研究提供了丰富的资源。

使用方法

使用Wan Juan数据集时，用户可以通过访问提供的统一JSON格式处理、数据集下载工具和配套文档来快速应用于大型模型训练。用户需要根据自身需求选择相应的数据模态，遵循数据使用规范，并利用数据集提供的高质量、安全、已对齐价值的内容来训练和评估模型性能。

背景与挑战

背景概述

随着ChatGPT和GPT-4等大型模型的流行，大量 impressivel的大型语言模型(LLMs)和多媒体大型语言模型(MLLMs)应运而生。这些前沿模型之所以能够展现出卓越的性能，得益于高质量的数据。然而，主流模型所使用的训练数据细节往往保持不透明，开源数据的匮乏也阻碍了社区的进一步发展。针对这一问题，'Wan Juan'数据集应运而生，这是一个大规模的多模态数据集，包含了中文和英文两种语言的数据，从众多网络来源中收集而成。该数据集不仅包含了文本数据，还包括了图像-文本和视频模态，总数据量超过2TB。'Wan Juan'数据集被用于训练InternLM模型，该模型在多维评估中显示出相对于同类规模模型的显著优势。此数据集的发布，对于推动自然语言处理和计算机视觉领域的研究，尤其是在需要理解和生成跨模态内容 tasks方面，具有重要意义。

当前挑战

在构建'Wan Juan'数据集的过程中，研究团队面临着诸多挑战。首先，数据集解决了理解和生成跨模态内容的多媒体任务问题，这对于现有的单模态模型来说是一个新的研究领域。其次，在数据集构建过程中，研究团队遇到了数据多样性、内容安全性和内容质量等挑战。为了确保数据的安全性和高质量，团队采用了算法处理和人工审核相结合的方式，对文本、图像-文本和视频数据进行了精心筛选和处理。此外，为了确保数据的多样性和全面性，研究团队还制定了精细的规则和算法，对原始数据进行过滤和加工，移除无效内容，确保了数据的信息含量和安全价值。

常用场景

经典使用场景

Wan Juan数据集是一部包含中英双语的综合性大规模多模态数据集，其经典使用场景主要集中于大型语言模型和计算机视觉模型的训练。该数据集融合了文本、图像-文本、视频等多种模态的数据，使得模型能够在多种任务中展现卓越的性能，如多模态内容理解、生成任务、图像标注和视频问答等。

衍生相关工作

Wan Juan数据集的发布促进了相关领域的研究工作，如InternLM多语言模型的训练，该模型在多项评价中显示出显著优势。此外，该数据集也激发了对多模态学习、数据清洗和预处理、内容安全过滤等方面的深入研究，进一步推动了多模态人工智能技术的发展。

数据集最近研究