five

Wan Juan

收藏
arXiv2023-09-15 更新2024-06-21 收录
下载链接:
https://opendatalab.org.cn/WanJuan1.0
下载链接
链接失效反馈
官方服务:
资源简介:
万卷(Wan Juan)是一个大规模的多模态中英文数据集,由上海人工智能实验室创建。该数据集包含文本、图文和视频三种模态,总容量超过2TB,其中文本数据超过6亿文档,存储量超过1TB;图文数据处理成文档,总数超过2200万,数据大小超过200GB;视频文件超过1000个,数据大小超过900GB。数据来源于广泛的网络资源,经过算法处理和人工验证确保数据安全、高质量和价值对齐。万卷数据集支持大型模型训练,特别是在多模态任务中,如视频字幕和视频问答,显示出显著优势。

Wan Juan is a large-scale multilingual (Chinese and English) multimodal dataset developed by the Shanghai AI Laboratory. The dataset covers three modalities: text, image-text, and video, with a total capacity exceeding 2 TB. Specifically, the text data includes over 600 million documents occupying more than 1 TB of storage; the image-text data, processed into document format, totals over 22 million with a size exceeding 200 GB; and the video data consists of more than 1,000 files with a total size over 900 GB. The dataset is sourced from a wide range of web resources, and undergoes algorithmic processing and manual verification to ensure data security, high quality, and value alignment. Wan Juan supports the training of large-scale models, and exhibits notable advantages particularly in multimodal tasks such as video captioning and video question answering.
提供机构:
上海人工智能实验室
创建时间:
2023-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
Wan Juan数据集是一个大规模的多模态数据集,包含中英两种语言的文本、图像-文本和视频数据。数据集的构建始于对互联网上多样化来源的数据进行收集,包括网页、百科全书、书籍、专利、教科书、考试题目等文本数据,以及新闻事件、人物、自然景观、社会生活等领域的图像-文本数据。视频数据则来源于中国媒体集团和上海媒体集团的高质量节目素材。构建过程中,研究团队通过精细设计的规则和算法对原始数据进行过滤和加工,确保内容的安全性和高质量,同时进行价值对齐处理,去除不良信息。
特点
Wan Juan数据集的特点在于其多模态数据的多样性、内容的安全性、高质量和价值对齐。具体而言,文本数据覆盖了6000万份文档,图像-文本数据超过2200万份文档,视频数据超过1000份文件,总数据量超过2TB。数据集在内容上涵盖了科技、文学、媒体、教育、法律等多个领域,为语言模型的训练和多种模态任务的研究提供了丰富的资源。
使用方法
使用Wan Juan数据集时,用户可以通过访问提供的统一JSON格式处理、数据集下载工具和配套文档来快速应用于大型模型训练。用户需要根据自身需求选择相应的数据模态,遵循数据使用规范,并利用数据集提供的高质量、安全、已对齐价值的内容来训练和评估模型性能。
背景与挑战
背景概述
随着ChatGPT和GPT-4等大型模型的流行,大量 impressivel的大型语言模型(LLMs)和多媒体大型语言模型(MLLMs)应运而生。这些前沿模型之所以能够展现出卓越的性能,得益于高质量的数据。然而,主流模型所使用的训练数据细节往往保持不透明,开源数据的匮乏也阻碍了社区的进一步发展。针对这一问题,'Wan Juan'数据集应运而生,这是一个大规模的多模态数据集,包含了中文和英文两种语言的数据,从众多网络来源中收集而成。该数据集不仅包含了文本数据,还包括了图像-文本和视频模态,总数据量超过2TB。'Wan Juan'数据集被用于训练InternLM模型,该模型在多维评估中显示出相对于同类规模模型的显著优势。此数据集的发布,对于推动自然语言处理和计算机视觉领域的研究,尤其是在需要理解和生成跨模态内容 tasks方面,具有重要意义。
当前挑战
在构建'Wan Juan'数据集的过程中,研究团队面临着诸多挑战。首先,数据集解决了理解和生成跨模态内容的多媒体任务问题,这对于现有的单模态模型来说是一个新的研究领域。其次,在数据集构建过程中,研究团队遇到了数据多样性、内容安全性和内容质量等挑战。为了确保数据的安全性和高质量,团队采用了算法处理和人工审核相结合的方式,对文本、图像-文本和视频数据进行了精心筛选和处理。此外,为了确保数据的多样性和全面性,研究团队还制定了精细的规则和算法,对原始数据进行过滤和加工,移除无效内容,确保了数据的信息含量和安全价值。
常用场景
经典使用场景
Wan Juan数据集是一部包含中英双语的综合性大规模多模态数据集,其经典使用场景主要集中于大型语言模型和计算机视觉模型的训练。该数据集融合了文本、图像-文本、视频等多种模态的数据,使得模型能够在多种任务中展现卓越的性能,如多模态内容理解、生成任务、图像标注和视频问答等。
衍生相关工作
Wan Juan数据集的发布促进了相关领域的研究工作,如InternLM多语言模型的训练,该模型在多项评价中显示出显著优势。此外,该数据集也激发了对多模态学习、数据清洗和预处理、内容安全过滤等方面的深入研究,进一步推动了多模态人工智能技术的发展。
数据集最近研究
最新研究方向
随着ChatGPT和GPT-4等大型模型的兴起,大规模预训练数据集的重要性日益凸显。Wan Juan数据集的构建,正是为了响应这一趋势,它是一个包含中英双语的综合性大规模多模态数据集。该数据集的推出,不仅丰富了自然语言处理和计算机视觉领域的研究资源,也为大型语言模型和多媒体任务的研究提供了新的视角。Wan Juan数据集的组成涵盖了文本、图像-文本和视频等多种模态,其内容多样性、安全性和高质量的特点,使其成为了推动多模态任务理解和生成的有力工具。近期研究利用该数据集对InternLM模型进行训练,结果显示其在多维度评价中相较于同类规模模型具有显著优势,这进一步证明了Wan Juan数据集在促进大型模型研究中的重要作用。
相关研究论文
  • 1
    WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models上海人工智能实验室 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作