MCSC

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/huanranhu-ruc/MCSC

下载链接

链接失效反馈

官方服务：

资源简介：

MCSC-Bench是一个用于现实视频制作的多模态上下文到脚本创建的数据集，旨在全面评估脚本创建质量和跨领域泛化能力。数据集包含两个子集：领域内测试集（data1，974个样本）和通用子集（data2，521个样本）。每个样本包含视频帧特征或帧图像、input.json和metadata.json文件。input.json包含每个样本的所有输入，包括交替的视频剪辑ID和帧路径（name_image_list）、视频剪辑库存与持续时间（video_material）、文本参考材料（text_material）和用户指令（instruction）。metadata.json提供额外注释，如无关干扰材料（distractor）和目标视频长度（duration）。领域内测试集提供预提取的Qwen3-VL视觉特征，以safetensors格式存储，包含主视觉表示（post_merger_embeds）、补丁网格维度（image_grid_thw）和多级中间ViT特征（deepstack_feature_00等）。领域外测试集设计用于直接推理，无需预提取特征。数据集仅限学术研究使用，禁止商业用途和再分发，并注重隐私保护和版权合规。

创建时间：

2026-03-31

原始信息汇总

MCSC-Bench 数据集概述

数据集基本信息

数据集名称：MCSC-Bench: Multimodal Context-to-Script Creation for Realistic Video Production
创建者：Huanran Hu, Zihui Ren, Dingyi Yang, Liangyu Chen, Qixiang Gao, Tiezheng Ge, Qin Jin
用途：用于评估视频脚本创作质量与跨领域泛化能力的多模态基准测试。

数据构成

数据集包含两个测试子集：

领域内测试集（In-Domain Test set）：974个样本（data1），用于全面评估脚本创作质量。
通用子集（Out-of-Domain Test set）：521个样本（data2），用于测试跨领域泛化能力。

数据内容与格式

通用文件

每个样本均包含以下文件：

input.json：包含每个样本的所有输入信息，具体结构如下：
- name_image_list：交错的视频片段ID和帧路径列表。
- video_material：视频片段清单及其持续时间。
- text_material：文本参考材料。
- instruction：用户指令。
metadata.json：提供额外标注信息，包括：
- distractor：指示哪些视频片段是无关的干扰材料。
- duration：指定目标视频的长度（以秒为单位）。

领域内测试集（data1）特定内容

视觉特征：提供预提取的Qwen3-VL视觉特征，以safetensors格式存储，无需原始视频文件或视觉编码器即可进行推理。
特征文件结构：
- 特征按样本ID组织，每个样本包含一个features/目录。
- 视频片段由子目录名称标识（例如1_1, 1_2）。
- 每个片段包含按编号的帧目录（例如000001, 000002）。
- 每个帧目录包含三个文件：
  - features.safetensors：包含以下张量：
    - post_merger_embeds：视觉编码器（ViT + Merger）的输出，形状为[N, hidden_size]，是可直接输入语言模型的主要视觉表示。
    - image_grid_thw：补丁网格维度[1, 3]（时间、高度、宽度），用于M-RoPE位置编码。
    - pre_merger_embeds（可选）：Merger之前的原始ViT输出，形状为[M, vision_dim]。
    - deepstack_feature_00, deepstack_feature_01, ...：Qwen3-VL的DeepStack机制用于将细粒度视觉特征注入LLM层的多级中间ViT特征。
  - metadata.json：记录源张量形状、提取设备/数据类型等信息，用于追溯。
  - feature_card.json：完整的可复现性卡片，包括模型配置、提取参数、库版本和特征维度描述。

通用子集（data2）特定内容

数据形式：提供来自多个视频片段的帧图像以及结构化的文本输入，设计用于任何多模态大语言模型直接推理，无需预提取特征。
文件位置：解压data2/frames.zip至frames/目录。

模型输入构建方法

遵循input.json中name_image_list的顺序构建图文交错的序列：将片段ID（例如"1.mp4"）作为文本标记，并将帧路径（或特征路径）加载为图像（或视觉嵌入）。

许可、伦理与访问条款

仅限学术使用：本数据集仅可用于学术研究目的，严格禁止任何商业用途。
禁止再分发：未经作者事先书面同意，不得以任何形式重新分发数据集。
隐私保护：
- 领域内数据源自经授权的机构访问的淘宝电商视频。
- 所有视觉内容均以通过Qwen3-VL-8B视觉编码器提取的去标识化特征形式发布；出于隐私原因，不分发原始图像或视频。
- 需要替代编码器（例如Qwen2.5-VL）特征的研究人员可联系[huanranhu@ruc.edu.cn]寻求协助。
版权与下架政策：
- MCSC-GEN包含从公开可用的YouTube和TikTok视频中采样的帧。视频内容参考Vript数据集进行选择，均源自公共平台。
- 尊重原始来源的个人信息隐私。
- 如果您是版权所有者并认为任何内容侵犯了您的权利，请联系[huanranhu@ruc.edu.cn]。
免责声明：
- 用户对使用本数据集所产生的任何法律责任承担全部责任。
- 作者保留随时修改或终止访问的权利，并对因使用本数据集而产生的任何损害不承担责任。

搜集汇总

数据集介绍

构建方式

在视频内容生成领域，MCSC-Bench数据集的构建体现了对多模态脚本创作任务的精细设计。该数据集包含领域内测试集与通用测试集两部分，其中领域内测试集源自授权获取的电商平台视频素材，经过隐私脱敏处理，仅以Qwen3-VL视觉编码器提取的特征形式发布，原始图像与视频均未公开。通用测试集则从公开网络视频平台采样帧图像构成，支持直接输入多模态大语言模型进行推理。每个样本均通过结构化的input.json文件组织，其中name_image_list字段定义了视频片段标识与帧路径的交错序列，配合video_material与text_material等文本参考材料，共同构建图像-文本交错的多模态输入序列。

特点

MCSC-Bench的突出特点在于其高度结构化的多模态数据组织与丰富的注释信息。数据集不仅提供了视频帧的视觉特征或原始帧图像，还通过metadata.json标注了干扰片段与目标视频时长等关键元数据，便于评估生成脚本的准确性与时序合理性。领域内测试集以预提取的视觉特征形式呈现，包含post_merger_embeds等可直接注入语言模型的多层次张量表示，并附有完整的特征描述卡片确保可复现性。通用测试集则保留了原始帧图像，具备良好的跨领域泛化测试能力。这种双轨设计既保障了隐私安全，又支持灵活的模型评估与对比研究。

使用方法

使用该数据集时，研究者需依据input.json中的name_image_list顺序构建图像-文本交错输入序列：将视频片段标识作为文本标记，并加载对应的帧图像或视觉特征嵌入。对于领域内测试集，可直接读取预提取的safetensors格式特征文件，其中post_merger_embeds张量作为主要视觉表示输入模型，并利用image_grid_thw网格维度进行位置编码。通用测试集则需解压帧图像文件并按路径加载原始像素数据。评估阶段可参考metadata.json中的distractor与duration注释，对生成脚本的素材筛选准确性与时长符合度进行量化分析。整个流程兼顾了多模态序列建模的灵活性与评估标准的客观性。

背景与挑战

背景概述

MCSC-Bench数据集由中国人民大学等机构的研究团队于2024年创建，旨在应对视频内容生成领域中的多模态上下文到脚本创作任务。该数据集聚焦于将视频片段、文本素材与用户指令融合，生成结构化的视频脚本，以推动视频制作自动化与智能化的发展。其核心研究问题在于如何有效整合视觉与文本信息，实现高质量、符合逻辑的脚本生成，对多模态大语言模型在创意产业的应用具有重要影响力。

当前挑战

该数据集旨在解决视频脚本自动生成中的多模态融合挑战，包括视觉与文本信息的对齐、时序逻辑的保持以及无关素材的过滤。在构建过程中，面临隐私保护与版权合规的难题，需从电商平台与公开视频中提取特征并去除身份信息，同时确保数据来源的合法性。此外，特征提取的标准化与跨域泛化测试的设计也增加了数据集的复杂性。

常用场景

经典使用场景

在视频内容创作与自动化生产领域，MCSC-Bench数据集为多模态上下文到脚本生成任务提供了标准化评估基准。其经典使用场景在于，研究者利用该数据集构建图像-文本交错序列作为输入，驱动多模态大语言模型生成符合用户指令的视频脚本。这一过程不仅模拟了真实视频制作中素材选择与叙事编排的复杂决策，还通过预提取的视觉特征支持高效推理，避免了原始视频处理的隐私与计算负担，从而在学术实验中精准衡量模型在脚本创建质量与跨域泛化能力上的表现。

解决学术问题

MCSC-Bench数据集致力于解决多模态人工智能研究中的核心挑战，即如何让模型理解并整合视觉与文本信息以生成连贯、实用的视频脚本。它通过提供结构化输入（如视频片段库存、文本参考材料）和详细标注（如干扰素材标识、目标时长），使研究者能够系统评估模型在素材相关性筛选、时序逻辑编排及指令跟随等方面的能力。该数据集的意义在于推动了上下文感知的脚本生成技术发展，为多模态内容创作提供了可复现的评估框架，显著提升了该领域研究的严谨性与可比性。

衍生相关工作

围绕MCSC-Bench数据集，已衍生出一系列聚焦于多模态脚本生成的经典研究工作。这些工作通常借鉴其图像-文本交错输入构建方法，探索更高效的视觉-语言对齐架构，或利用其提供的干扰素材标注开发抗噪声的注意力机制。部分研究进一步扩展了数据集的评估维度，引入了如脚本多样性、情感一致性等新指标。同时，该数据集也促进了与Vript等公开视频数据集的交叉引用，推动了多模态基准在覆盖领域与任务复杂度上的持续演进，为后续的模型创新与性能突破奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集