five

SkyScript-100M

收藏
github2024-08-18 更新2024-08-28 收录
下载链接:
https://github.com/vaew/SkyScript-100M
下载链接
链接失效反馈
官方服务:
资源简介:
SkyScript-100M是一个专注于短剧视频制作的大规模多模态数据集。该数据集汇集了来自互联网的6660部流行短剧,总计约80,000集,总时长超过2000小时,数据量高达10TB。通过关键帧提取与注释,SkyScript-100M提供了10亿对高质量的短剧本与拍摄脚本,为短剧视频生成领域提供了丰富的资源。数据集的构建过程包括多模态大语言模型的预注释、关键信息清洗、像素化处理以及后续的校准与优化,确保了数据的高质量与实用性。SkyScript-100M的应用领域广泛,旨在推动文本到视频的转换技术,解决短剧制作中的剧本优化问题,促进短剧视频生成领域的范式转变。

SkyScript-100M is a large-scale multimodal dataset dedicated to short-form video drama production. It compiles 6,660 popular short-form drama series sourced from the Internet, totaling approximately 80,000 episodes with an aggregate duration of over 2,000 hours and a total data volume of up to 10 TB. Through keyframe extraction and annotation, SkyScript-100M provides 1 billion high-quality pairs of short drama scripts and shooting scripts, serving as a rich resource for the field of short-form video drama generation. The dataset's construction workflow encompasses pre-annotation using multimodal large language models (LLMs), key information cleaning, pixelization processing, as well as subsequent calibration and optimization, which ensures the high quality and practical usability of the collected data. SkyScript-100M boasts a broad spectrum of application scenarios, with the goals of advancing text-to-video conversion technologies, resolving script optimization challenges in short-form drama production, and facilitating paradigm shifts in the field of short-form video generation.
提供机构:
Skywork AI、华中科技大学
创建时间:
2024-08-18
原始信息汇总

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

数据集概述

  • 名称:SkyScript-100M
  • 内容:包含1,000,000,000对短剧剧本和拍摄剧本的数据集
  • 来源:从互联网收集的6,660个受欢迎的短剧剧集,每个剧集平均包含100个短剧集,总计约80,000个短剧集,总时长约2,000小时,总计10TB
  • 处理:对每个剧集进行关键帧提取和标注,得到约10,000,000个拍摄剧本,并通过自研的大型短剧生成模型SkyReels进行100次剧本恢复

数据集用途

  • 研究目的:基于SkyScript-100M,研究人员可以实现更深入和更远大的剧本优化目标,可能推动文本到视频领域的范式转变,并显著推进短剧视频生成领域的发展

相关资源

引用信息

bibtex @misc{tang2024skyscript100m, title={SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama}, author={Jing Tang, Quanlu Jia, Yuqiang Xie, Zeyu Gong, Xiang Wen, Jiayi Zhang, Yalong Guo, Guibin Chen, Jiangping Yang}, year={2024}, eprint={2408.09333}, archivePrefix={arXiv}, primaryClass={cs.CL} }

联系信息

  • 联系人:Jing Tang (唐晶)
  • 邮箱:j_tang@hust.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在短剧剧本生成领域,高质量的拍摄脚本生成至关重要。SkyScript-100M数据集通过收集6,660部流行的短剧剧集,每部剧集平均包含100集短剧,总计约80,000集,总时长约2,000小时,数据量达10TB。研究团队对每集剧集进行关键帧提取和标注,生成约10,000,000个拍摄脚本。基于自主研发的短剧生成模型SkyReels,对提取的拍摄脚本进行100次脚本恢复,最终形成包含1,000,000,000对剧本和拍摄脚本的SkyScript-100M数据集。
特点
SkyScript-100M数据集的显著特点在于其庞大的规模和丰富的内容。该数据集不仅包含了海量的剧本和拍摄脚本对,还通过关键帧提取和标注,提供了详尽的视觉和文本信息。此外,数据集的构建过程中采用了先进的短剧生成模型SkyReels,确保了脚本恢复的高质量和多样性。这些特点使得SkyScript-100M成为短剧视频生成领域的重要资源,为研究人员提供了深入探索和优化剧本生成的机会。
使用方法
SkyScript-100M数据集适用于多种短剧生成和优化任务。研究人员可以利用该数据集进行剧本生成模型的训练和评估,探索不同剧本和拍摄脚本之间的关系。此外,数据集中的关键帧和标注信息可用于视觉和文本联合分析,提升短剧视频生成的质量和效率。数据集还提供了样本数据和相关工具,方便早期研究和模型开发。通过深入分析SkyScript-100M,研究人员可以实现更深层次的剧本优化目标,推动短剧视频生成领域的创新和发展。
背景与挑战
背景概述
SkyScript-100M数据集由华中科技大学和SkyWork AI联合开发,主要研究人员包括Jing Tang、Quanlu Jia、Yuqiang Xie等。该数据集的核心研究问题是如何生成高质量的短剧拍摄脚本,涵盖场景和镜头语言等信息。通过收集6,660部热门短剧,每部平均包含100集,总计约80,000集,时长约2,000小时,数据量达10TB。研究人员对每集进行关键帧提取和标注,生成约10,000,000个拍摄脚本,并通过自研的大型短剧生成模型SkyReels进行100次脚本修复,最终形成包含1,000,000,000对脚本和拍摄脚本的SkyScript-100M数据集。该数据集的创建旨在推动文本到视频领域的范式转变,显著提升短剧视频生成的研究水平。
当前挑战
SkyScript-100M数据集在构建过程中面临多重挑战。首先,从海量短剧中提取和标注关键帧需要高度精确的技术和大量人力。其次,脚本修复过程中,如何确保修复后的脚本与原始内容高度一致且不失真,是一个技术难题。此外,数据集的规模庞大,如何高效存储和处理这些数据,确保其在研究中的可用性和稳定性,也是一大挑战。最后,尽管该数据集在短剧生成领域具有潜在的革命性影响,但其广泛应用还需克服数据隐私和版权等法律问题。
常用场景
经典使用场景
在短剧创作领域,SkyScript-100M数据集以其庞大的10亿对剧本与拍摄剧本配对,成为生成高质量短剧剧本的关键资源。该数据集通过提取和注释6,660个流行短剧集的关键帧,结合自研的SkyReels生成模型,实现了对拍摄剧本的100次修复,从而为研究者提供了丰富的剧本优化目标。这一过程不仅提升了剧本生成的质量,还为短剧视频生成领域带来了革命性的变化。
解决学术问题
SkyScript-100M数据集解决了短剧剧本生成中的多个学术难题,如剧本与实际拍摄之间的语义鸿沟、剧本质量评估的客观标准缺失等。通过提供大规模的剧本与拍摄剧本配对,该数据集为研究者提供了丰富的实验材料,有助于开发更精确的剧本生成模型和评估体系。这不仅推动了短剧生成技术的发展,也为文本到视频领域的研究提供了新的视角。
衍生相关工作
基于SkyScript-100M数据集,研究者们开发了多种相关工作,如SkyReels生成模型和自动化剧本评估系统。SkyReels模型通过学习数据集中的剧本与拍摄剧本配对,实现了高质量的短剧剧本生成。自动化剧本评估系统则利用数据集中的标注信息,开发了客观的剧本质量评估标准。这些工作不仅丰富了短剧生成技术,也为相关领域的研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作