Multimodal Textbook

github2025-01-02 更新2025-01-03 收录

下载链接：

https://github.com/DAMO-NLP-SG/multimodal_textbook

下载链接

链接失效反馈

官方服务：

资源简介：

多模态教科书是一个高质量的预训练语料库，涵盖了丰富的基础知识，以图像和文本交错的形式呈现。该教科书由2.5年的教学视频构建而成，总计22,000课时，涵盖数学、物理等六个基础学科。在多模态教科书中，文本是从音频转录而来，图像是从视频的关键帧中提取的，它们紧密对齐，提供了更连贯的上下文。

The Multimodal Textbook is a high-quality pre-training corpus that covers a wealth of foundational knowledge, structured in an interleaved image-text format. This corpus is built from 2.5 years of instructional videos, totaling 22,000 class hours, and spans six foundational disciplines including mathematics, physics and other related fields. Within this multimodal textbook, the textual content is derived from audio transcriptions, while the visual content is extracted from key frames of the original videos; these two modalities are tightly aligned to provide more coherent contextual information.

创建时间：

2025-01-01

原始信息汇总

多模态教材数据集概述

数据集简介

名称: 多模态教材（Multimodal Textbook）
类型: 预训练语料库
格式: 图像-文本交错格式
来源: 2.5年的教学视频，总计22,000课时，涵盖数学、物理等六个基础学科
内容: 文本从音频转录，图像从视频关键帧提取，两者紧密对齐，提供更连贯的上下文

数据集规模

完整数据集: 13GB（JSON文件） + 0.7TB（图像）
示例数据: 100个样本及其对应图像，存储在example_data文件夹中

数据结构

图像列表: 包含多个关键帧和None，None表示当前位置为文本
文本列表: 包含多个ASR文本，None的位置为图像
OCR文本列表: 包含ASR文本和OCR文本
元数据: 包含样本的元信息
图像数量: 每个样本中的图像数量
文本数量: 每个样本中的ASR文本数量
总词数: 每个样本中的总词数估计

数据准备

训练语料: multimodal_textbook.json（11GB） + 图像文件夹（700GB）
基准测试: OKVQA, TextVQA, ScienceQA, Mathvista, Mathvision, Mathverse

命名格式

关键帧命名规则: 视频ID@开始时间_结束时间#关键帧编号.jpg
示例: -1uixJ1V-As/-1uixJ1V-As@10.0_55.0#2.jpg

评估

数学相关基准测试: Mathvista, Mathvision, Mathverse
VQA基准测试: OKVQA, TextVQA
ScienceQA基准测试: ScienceQA

训练

预训练: 使用LLaVA-1.5和Idefics2-base进行预训练
训练脚本: train_interleaved.py（LLaVA）和run.sh（Idefics2）

引用与致谢

代码库: 基于LLaVA和OmniCorpus

搜集汇总

数据集介绍

构建方式

Multimodal Textbook数据集的构建基于2.5年的教学视频，总计22,000课时，涵盖数学、物理等六门基础学科。文本内容通过音频转录获得，图像则从视频的关键帧中提取，确保图文内容紧密对齐，提供连贯的上下文信息。数据集以图像-文本交错格式呈现，旨在为视觉-语言预训练提供高质量的多模态语料库。

使用方法

用户可通过Huggingface平台下载完整数据集，或使用提供的示例数据进行调试。数据集支持多种预训练模型，如LLaVA和Idefics2，用户可根据需求选择相应的训练脚本进行模型训练。此外，数据集还提供了针对数学、视觉问答（VQA）及科学问答（ScienceQA）等基准任务的评估脚本，支持少样本设置下的模型性能测试。用户可通过Jupyter Notebook直观查看图像与文本的交错排列，进一步理解数据集的结构与内容。

背景与挑战

背景概述

Multimodal Textbook数据集由DAMO-NLP-SG团队于2023年发布，旨在为视觉-语言预训练提供高质量的多模态语料库。该数据集基于2.5年的教学视频构建，涵盖了数学、物理等六门基础学科，总计22,000课时。数据集以图像-文本交错的形式呈现，文本从音频转录而来，图像则从视频关键帧中提取，确保了内容的高度一致性。这一数据集不仅为多模态学习提供了丰富的知识基础，还推动了视觉-语言模型在复杂任务中的表现，如视觉问答（VQA）和科学问题解答（ScienceQA）。

当前挑战

Multimodal Textbook数据集在构建和应用中面临多重挑战。首先，数据集的规模庞大，完整的JSON文件达13GB，图像数据更是高达0.7TB，这对存储和计算资源提出了极高要求。其次，图像与文本的对齐需要精确的时序匹配，任何偏差都会影响模型的训练效果。此外，数据集的多模态特性要求模型能够同时处理视觉和语言信息，这对模型的架构和训练策略提出了更高要求。最后，数据集的多样性和复杂性使得在特定任务（如数学问题解答）上的泛化能力成为一大挑战，需要进一步优化模型以应对不同领域的知识需求。

常用场景

经典使用场景

Multimodal Textbook数据集在视觉-语言预训练领域具有重要应用，尤其是在多模态模型的预训练过程中。该数据集通过将图像与文本交错排列，提供了丰富的上下文信息，使得模型能够更好地理解图像与文本之间的关联。这种格式特别适用于需要同时处理视觉和语言信息的任务，如视觉问答（VQA）和图像字幕生成。

解决学术问题

Multimodal Textbook数据集解决了多模态学习中的关键问题，即如何有效地将视觉信息与语言信息进行对齐。通过提供高质量的交错图像-文本数据，该数据集帮助研究人员构建更强大的多模态模型，提升了模型在复杂任务中的表现，如数学问题解答和科学知识理解。

实际应用

在实际应用中，Multimodal Textbook数据集被广泛用于教育技术领域，特别是在智能辅导系统和在线学习平台中。通过利用该数据集，开发者可以构建能够理解复杂教学内容的AI系统，从而为学生提供个性化的学习体验。此外，该数据集还在自动生成教学材料和辅助教师备课方面展现了巨大潜力。

数据集最近研究