five

SkyScript-100M

收藏
github2024-08-18 更新2024-08-28 收录
下载链接:
https://github.com/vaew/SkyScript-100M
下载链接
链接失效反馈
资源简介:
SkyScript-100M是一个专注于短剧视频制作的大规模多模态数据集。该数据集汇集了来自互联网的6660部流行短剧,总计约80,000集,总时长超过2000小时,数据量高达10TB。通过关键帧提取与注释,SkyScript-100M提供了10亿对高质量的短剧本与拍摄脚本,为短剧视频生成领域提供了丰富的资源。数据集的构建过程包括多模态大语言模型的预注释、关键信息清洗、像素化处理以及后续的校准与优化,确保了数据的高质量与实用性。SkyScript-100M的应用领域广泛,旨在推动文本到视频的转换技术,解决短剧制作中的剧本优化问题,促进短剧视频生成领域的范式转变。

SkyScript-100M is a large-scale multimodal dataset dedicated to short-form drama video production. This dataset collects 6,660 popular short dramas sourced from the Internet, totaling approximately 80,000 episodes, with an overall duration exceeding 2,000 hours and a data volume of up to 10 TB. Through keyframe extraction and annotation, SkyScript-100M provides 1 billion high-quality pairs of short drama scripts and shooting scripts, offering rich resources for the field of short-form video generation. The dataset's construction pipeline includes pre-annotation with multimodal large language models, key information cleansing, pixelization processing, and subsequent calibration and optimization, ensuring the high quality and practical usability of the data. SkyScript-100M has broad application prospects, aiming to advance text-to-video conversion technologies, address script optimization challenges in short drama production, and facilitate paradigm shifts in the field of short-form video generation.
提供机构:
Skywork AI、华中科技大学
创建时间:
2024-08-18
原始信息汇总

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

数据集概述

  • 名称:SkyScript-100M
  • 内容:包含1,000,000,000对短剧剧本和拍摄剧本的数据集
  • 来源:从互联网收集的6,660个受欢迎的短剧剧集,每个剧集平均包含100个短剧集,总计约80,000个短剧集,总时长约2,000小时,总计10TB
  • 处理:对每个剧集进行关键帧提取和标注,得到约10,000,000个拍摄剧本,并通过自研的大型短剧生成模型SkyReels进行100次剧本恢复

数据集用途

  • 研究目的:基于SkyScript-100M,研究人员可以实现更深入和更远大的剧本优化目标,可能推动文本到视频领域的范式转变,并显著推进短剧视频生成领域的发展

相关资源

引用信息

bibtex @misc{tang2024skyscript100m, title={SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama}, author={Jing Tang, Quanlu Jia, Yuqiang Xie, Zeyu Gong, Xiang Wen, Jiayi Zhang, Yalong Guo, Guibin Chen, Jiangping Yang}, year={2024}, eprint={2408.09333}, archivePrefix={arXiv}, primaryClass={cs.CL} }

联系信息

  • 联系人:Jing Tang (唐晶)
  • 邮箱:j_tang@hust.edu.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
在短剧剧本生成领域,高质量的拍摄脚本生成至关重要。SkyScript-100M数据集通过收集6,660部流行的短剧剧集,每部剧集平均包含100集短剧,总计约80,000集,总时长约2,000小时,数据量达10TB。研究团队对每集剧集进行关键帧提取和标注,生成约10,000,000个拍摄脚本。基于自主研发的短剧生成模型SkyReels,对提取的拍摄脚本进行100次脚本恢复,最终形成包含1,000,000,000对剧本和拍摄脚本的SkyScript-100M数据集。
特点
SkyScript-100M数据集的显著特点在于其庞大的规模和丰富的内容。该数据集不仅包含了海量的剧本和拍摄脚本对,还通过关键帧提取和标注,提供了详尽的视觉和文本信息。此外,数据集的构建过程中采用了先进的短剧生成模型SkyReels,确保了脚本恢复的高质量和多样性。这些特点使得SkyScript-100M成为短剧视频生成领域的重要资源,为研究人员提供了深入探索和优化剧本生成的机会。
使用方法
SkyScript-100M数据集适用于多种短剧生成和优化任务。研究人员可以利用该数据集进行剧本生成模型的训练和评估,探索不同剧本和拍摄脚本之间的关系。此外,数据集中的关键帧和标注信息可用于视觉和文本联合分析,提升短剧视频生成的质量和效率。数据集还提供了样本数据和相关工具,方便早期研究和模型开发。通过深入分析SkyScript-100M,研究人员可以实现更深层次的剧本优化目标,推动短剧视频生成领域的创新和发展。
背景与挑战
背景概述
SkyScript-100M数据集由华中科技大学和SkyWork AI联合开发,主要研究人员包括Jing Tang、Quanlu Jia、Yuqiang Xie等。该数据集的核心研究问题是如何生成高质量的短剧拍摄脚本,涵盖场景和镜头语言等信息。通过收集6,660部热门短剧,每部平均包含100集,总计约80,000集,时长约2,000小时,数据量达10TB。研究人员对每集进行关键帧提取和标注,生成约10,000,000个拍摄脚本,并通过自研的大型短剧生成模型SkyReels进行100次脚本修复,最终形成包含1,000,000,000对脚本和拍摄脚本的SkyScript-100M数据集。该数据集的创建旨在推动文本到视频领域的范式转变,显著提升短剧视频生成的研究水平。
当前挑战
SkyScript-100M数据集在构建过程中面临多重挑战。首先,从海量短剧中提取和标注关键帧需要高度精确的技术和大量人力。其次,脚本修复过程中,如何确保修复后的脚本与原始内容高度一致且不失真,是一个技术难题。此外,数据集的规模庞大,如何高效存储和处理这些数据,确保其在研究中的可用性和稳定性,也是一大挑战。最后,尽管该数据集在短剧生成领域具有潜在的革命性影响,但其广泛应用还需克服数据隐私和版权等法律问题。
常用场景
经典使用场景
在短剧创作领域,SkyScript-100M数据集以其庞大的10亿对剧本与拍摄剧本配对,成为生成高质量短剧剧本的关键资源。该数据集通过提取和注释6,660个流行短剧集的关键帧,结合自研的SkyReels生成模型,实现了对拍摄剧本的100次修复,从而为研究者提供了丰富的剧本优化目标。这一过程不仅提升了剧本生成的质量,还为短剧视频生成领域带来了革命性的变化。
解决学术问题
SkyScript-100M数据集解决了短剧剧本生成中的多个学术难题,如剧本与实际拍摄之间的语义鸿沟、剧本质量评估的客观标准缺失等。通过提供大规模的剧本与拍摄剧本配对,该数据集为研究者提供了丰富的实验材料,有助于开发更精确的剧本生成模型和评估体系。这不仅推动了短剧生成技术的发展,也为文本到视频领域的研究提供了新的视角。
衍生相关工作
基于SkyScript-100M数据集,研究者们开发了多种相关工作,如SkyReels生成模型和自动化剧本评估系统。SkyReels模型通过学习数据集中的剧本与拍摄剧本配对,实现了高质量的短剧剧本生成。自动化剧本评估系统则利用数据集中的标注信息,开发了客观的剧本质量评估标准。这些工作不仅丰富了短剧生成技术,也为相关领域的研究提供了新的工具和方法。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作