five

MCSC

收藏
Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/KevinHu0218/MCSC
下载链接
链接失效反馈
官方服务:
资源简介:
MCSC-Bench是一个用于现实视频制作的多模态上下文到脚本创建的数据集。该数据集包含领域内测试集(974个样本)和通用子集(521个样本),用于全面评估脚本创建质量和跨领域泛化能力。数据集发布的内容包括视频帧特征或帧图像、input.json和metadata.json文件。input.json包含每个样本的所有输入,其中每个项目包括name_image_list(交错的视频剪辑ID和帧路径)、video_material(视频剪辑库存与持续时间)、text_material(文本参考材料)和instruction(用户指令)。metadata.json提供额外的注释,如distractor(指示哪些剪辑是无关的干扰材料)和duration(指定目标视频长度)。领域内测试集提供了预提取的Qwen3-VL视觉特征,以safetensors格式存储,支持无需原始视频文件或视觉编码器的推理。领域外测试集则设计为直接与任何多模态大语言模型进行推理。数据集仅用于学术研究,禁止商业用途和再分发,并包含隐私保护和版权政策。
创建时间:
2026-03-31
原始信息汇总

MCSC-Bench 数据集概述

数据集基本信息

  • 数据集名称: MCSC-Bench: Multimodal Context-to-Script Creation for Realistic Video Production
  • 创建者: Huanran Hu, Zihui Ren, Dingyi Yang, Liangyu Chen, Qixiang Gao, Tiezheng Ge, Qin Jin
  • 访问地址: https://huggingface.co/datasets/KevinHu0218/MCSC

数据构成与内容

测试集划分

  • 领域内测试集 (data1): 包含974个样本,用于全面评估脚本创建质量。
  • 通用子集 (data2): 包含521个样本,用于测试跨领域泛化能力。

核心数据文件

  • input.json: 每个样本的输入信息,包含:
    • name_image_list: 交错的视频片段ID和帧路径列表。
    • video_material: 视频片段库存及其持续时间。
    • text_material: 文本参考材料。
    • instruction: 用户指令。
  • metadata.json: 提供额外标注,包括:
    • distractor: 标识无关的干扰素材片段。
    • duration: 目标视频长度(秒)。

领域内测试集 (data1) 特性

  • 提供预提取的Qwen3-VL视觉特征,以safetensors格式存储。
  • 特征目录按样本ID组织,每个样本包含features/目录。
  • 每个视频片段特征包含以下文件:
    • features.safetensors: 包含post_merger_embeds(主视觉表示)、image_grid_thw(补丁网格维度)、pre_merger_embeds(可选原始ViT输出)及deepstack_feature_xx(多级中间ViT特征)等张量。
    • metadata.json: 记录源张量形状、提取设备/数据类型等信息。
    • feature_card.json: 包含模型配置、提取参数、库版本和特征维度描述的完整可复现性卡片。

领域外测试集 (data2) 特性

  • 设计用于任何多模态大语言模型的直接推理,无需预提取特征。
  • 每个样本包含来自多个视频片段的帧以及结构化文本输入。
  • 需解压data2/frames.zipframes/目录。

数据使用与构建

  • 构建模型输入时,需遵循name_image_list顺序构建图像-文本交错序列:片段ID(如"1.mp4")作为文本标记,帧路径/特征路径作为图像/视觉嵌入加载。
  • 评估生成的脚本时,可使用metadata.json中的distractorduration信息。

许可与使用条款

  • 仅限学术使用: 本数据集仅可用于学术研究目的,严禁任何商业用途。
  • 禁止再分发: 未经作者事先书面同意,不得以任何形式重新分发数据集。
  • 隐私保护: 领域内数据源自经授权机构访问的淘宝电商视频。所有视觉内容均以通过Qwen3-VL-8B视觉编码器提取的去标识化特征形式发布;出于隐私原因,不分发原始图像或视频。
  • 版权与下架政策: MCSC-GEN包含来自公开YouTube和TikTok视频的采样帧。视频内容参考Vript数据集进行选择,均源自公共平台。尊重原始来源的个人信息隐私。若您是版权持有者并认为任何内容侵犯您的权利,请联系[huanranhu@ruc.edu.cn]。
  • 免责声明: 您需对使用本数据集产生的法律风险自行负责。作者保留随时修改或终止访问的权利,并对因使用该数据集产生的任何损害不承担责任。
搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体内容创作领域,MCSC数据集的构建体现了对现实视频制作流程的深度模拟。该数据集包含领域内测试集与跨领域泛化子集,通过精心设计的输入结构,将视频片段标识与帧路径交织成图文交替序列。领域内测试集采用预提取的Qwen3-VL视觉特征,以safetensors格式存储,确保数据的高效访问与隐私保护;跨领域测试集则提供原始帧图像,支持任意多模态大语言模型的直接推理。数据构建过程中,每个样本均整合了视频素材清单、文本参考材料及用户指令,并辅以元数据标注干扰片段与目标时长,为脚本生成任务提供了结构化的多模态上下文。
特点
MCSC数据集的特点在于其高度结构化的多模态输入与严谨的评估设计。数据集以图文交替序列为核心,将视频片段标识作为文本标记,帧图像或视觉特征作为视觉嵌入,实现了视频与文本材料的有机融合。领域内测试集专注于脚本创作质量的全面评估,而跨领域子集则测试模型的泛化能力。数据集中包含的干扰素材标注与目标时长信息,为生成脚本的连贯性与时长控制提供了明确的评估依据。此外,视觉特征以多层次形式保存,包括原始视觉编码器输出与深度堆叠中间特征,支持细粒度的视觉信息注入,增强了模型对视频内容的理解深度。
使用方法
使用MCSC数据集时,研究者需遵循其图文交替的输入构建规范。对于领域内测试集,可直接加载预提取的视觉特征文件,将post_merger_embeds作为主要视觉表示注入语言模型,并利用image_grid_thw进行位置编码;跨领域测试集则需解压帧图像目录,按样本组织加载原始视觉数据。模型输入应严格依据input.json中的name_image_list顺序,交替插入视频片段标识与对应帧特征或图像,同时整合video_material与text_material作为上下文参考。评估阶段可借助metadata.json中的干扰片段标注与目标时长,对生成脚本的准确性与时长符合度进行量化分析。
背景与挑战
背景概述
MCSC-Bench数据集由中国人民大学等机构的研究团队于2024年发布,旨在推动多模态上下文到脚本生成的前沿研究。该数据集聚焦于视频内容创作领域,核心研究问题是如何基于给定的视频素材、文本参考及用户指令,自动生成结构化的视频脚本。其构建融合了视觉与文本信息的交织序列,为评估多模态大语言模型在真实视频生产场景下的脚本创作能力提供了标准化基准。该数据集的发布显著促进了多模态生成任务的发展,尤其在电子商务、社交媒体视频制作等应用领域展现出重要影响力。
当前挑战
MCSC-Bench数据集所解决的核心领域问题是多模态上下文到脚本生成,其挑战在于模型需同时理解视觉序列的时空动态、文本材料的语义关联以及用户指令的复杂意图,并生成连贯、符合时长约束的脚本。在构建过程中,数据集面临多重挑战:一是隐私保护要求严格,原始电子商务视频需通过特征提取进行去标识化处理,避免分发原始图像;二是跨域泛化评估的设计,需平衡领域内测试集与领域外测试集的样本分布;三是多模态数据对齐的复杂性,要求精确标注干扰素材与目标时长,以支持脚本质量与相关性的细粒度评估。
常用场景
经典使用场景
在视频内容创作领域,MCSC-Bench数据集为多模态上下文到脚本生成任务提供了标准化评估基准。该数据集通过整合视频片段、文本参考材料和用户指令,构建了图像-文本交错序列,支持模型在给定视频素材和文本背景的条件下,生成连贯、符合逻辑的视频脚本。其经典使用场景在于评估多模态大语言模型在理解视觉与文本信息后,进行创造性脚本合成的能力,尤其适用于电子商务视频制作等需要结构化叙事生成的领域。
衍生相关工作
围绕MCSC-Bench数据集,已衍生出多项经典研究工作,主要集中在多模态大语言模型的架构优化、视觉-语言融合机制的改进以及跨领域泛化策略的设计。这些工作借鉴了数据集的评估范式,进一步探索了视频特征提取、时序建模和创造性生成任务的结合,为后续视频理解与生成领域的模型创新提供了重要参考基础。
数据集最近研究
最新研究方向
在视频内容生成领域,MCSC-Bench数据集正推动多模态上下文到脚本创作的前沿探索。该数据集通过融合视频帧特征与文本材料,构建图像-文本交错序列,为生成式模型提供了结构化输入范式,促进了跨模态理解与创作能力的评估。当前研究热点集中于利用预提取的视觉特征(如Qwen3-VL编码器输出)直接注入语言模型,以提升脚本生成的真实性与时序连贯性,同时关注跨域泛化性能,应对电商与社交媒体等多样化场景。这一进展不仅加速了自动化视频生产的实用化进程,也为多模态大语言模型的细粒度对齐与可控生成设立了新基准,具有重要的学术与产业意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作