seedance-2-prompts-datasets
收藏Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/GokuScraper/seedance-2-prompts-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Goku Seedance 2 视频提示词数据集是一个大规模、结构化的文本到视频生成提示词集合,专为开发者和研究人员设计。它旨在解决AI生态中提示词数据碎片化、缺乏标准、难以复用的问题,将网络上的提示词转化为可计算、可重新分发的数据资产。数据集核心包含超过2110个用于字节跳动Seedance 2.0等视频生成模型的提示词,以及对应的生成视频(.mp4)和封面图(.jpg)。所有数据通过一个高度结构化的JSONL文件(`metadata.jsonl`)进行组织和管理,该文件为每个样本提供完整的元数据,包括唯一标识符、类别、日期、原始提示词、模型信息、媒体文件路径、视频规格(如时长、分辨率、安全评级)以及支持中英文的双语标题、提示词和标签。数据集总大小超过12GB,适用于文本到视频生成任务的研究与开发,特别是提示工程、模型微调、生成内容分析以及构建AI视频创作工具链。数据采用CC BY 4.0许可证,允许商业使用和修改,但需署名。数据集完全开放,无需登录即可从Hugging Face平台直接下载或通过在线查看器浏览。
创建时间:
2026-05-03
原始信息汇总
数据集概述
数据集名称:Goku Seedance 2 Video Prompts Dataset
数据集地址:https://huggingface.co/datasets/GokuScraper/seedance-2-prompts-datasets
许可证:CC BY 4.0(允许商业使用、修改、再分发,需注明原始来源)
语言:英语、中文
任务类别:文本到视频生成(text-to-video)
标签:视频提示词、提示词工程、提示词数据集、视频生成
数据集规模与构成
- 提示词总数:超过2110个
- 数据格式:JSONL(结构化元数据文件),附带MP4视频和JPG封面图片
- 数据集大小:12GB以上
- 数据分割:单个训练集(train),对应文件为
metadata.jsonl
数据结构与特征
每条记录包含以下字段:
| 字段名 | 类型 | 说明 |
|---|---|---|
| version | string | 数据版本 |
| id | string | 唯一标识符 |
| category | string | 类别(如娱乐等) |
| is_featured | bool | 是否为精选 |
| date | string | 日期 |
| slug | string | 简短标识 |
| model_info | struct | 模型信息(名称、版本) |
| raw_p | string | 原始提示词 |
| media | struct | 媒体文件路径(视频、封面) |
| spec | struct | 规格(时长、宽高、比例、安全评级) |
| i18n | struct | 多语言支持(英文/中文,含标题、描述、标签) |
| platform | string | 来源平台 |
| sourceLink | string | 来源链接 |
| file_name | string | 文件名 |
数据集特点
- 100%开放:无需登录、无广告、无重定向,可直接下载或在线浏览。
- 结构化存储:使用JSONL格式,便于程序解析和导入数据库(如SQLite、Supabase)。
- 开发者友好:支持一行Python代码加载为Pandas DataFrame。
- 多语言支持:每条数据包含中英文双语版本,便于多语种研究与应用。
- 持续更新:自动同步,保持数据新鲜度。
数据用途
- 视频生成模型的提示词工程研究
- 文本到视频模型的训练与评估
- 多语言提示词数据分析与处理
- 提示词结构化存储与检索系统建设
免责声明
本数据集中的提示词和元数据来源于公开互联网社区,仅供学习、研究和数据结构化使用。原始生成内容的版权归原作者所有,本项目仅提供数据整理、结构化处理、分类和索引服务,不主张对原始内容的版权。
搜集汇总
数据集介绍

构建方式
该数据集由GokuOpenLab发起构建,旨在将互联网上散落的视频生成提示词转化为结构化、可计算与可再分配的数据资产。数据采集自公开网络社区,经由统一的解析与标准化流程处理,每条记录均以JSONL格式存储,包含提示词原文、多语言翻译、生成视频与封面文件的路径链接、模型配置信息(如Seedance 2.0版本)、视频规格参数以及来源平台等元数据。数据集总量超过12GB,涵盖2000余条视频生成提示词及其对应的生成视频与封面图片。
特点
该数据集的核心特点在于其高度的结构化与开放性。每条提示词均关联了完整的视频生成配置,包括时长、分辨率、宽高比及安全评级。数据支持中英双语,并提供了国际化字段(i18n),包含翻译后的提示词与标签。所有数据采用CC BY 4.0许可协议,允许自由使用、修改与再分发。数据集无需登录即可通过Hugging Face直接下载,并配套在线浏览工具,实现了真正的无障碍访问。
使用方法
数据集的JSONL格式使其易于集成到各类开发流程中。开发者可通过一行Python代码将数据加载至Pandas DataFrame进行分析,例如使用`pd.read_json(url, lines=True)`直接读取Hugging Face上的元数据文件。该格式原生支持导入SQLite、Supabase等数据库,便于构建本地AI工具链或进行大规模数据检索。数据字段包含规范化的视频路径与提示词信息,可直接用于视频生成模型的测试、评估或微调任务。
背景与挑战
背景概述
文本到视频生成是人工智能领域的前沿方向,旨在通过语言描述自动生成连贯视频,其发展高度依赖高质量提示数据。2025年,GokuOpenLab团队创建了seedance-2-prompts-datasets数据集,基于字节跳动Seedance 2.0模型,搜集并结构化整理了2000余条跨语言(英文与中文)视频生成提示及其对应的多媒体资产。该数据集以CC BY 4.0协议完全开源,直击当前提示数据碎片化、缺乏统一标准、难以工程化复用的痛点,通过提供可计算、可重分发的结构化数据基础设施,显著推动视频生成研究从经验驱动迈向工程化发展,在提示工程与数据集构建领域产生了重要的示范效应。
当前挑战
该数据集所解决的领域核心挑战在于文本到视频生成模型的输入提示通常分散于非结构化平台,缺乏统一格式与元数据支撑,严重阻碍了模型训练的系统性与结果的可复现性。为此,构建过程面临多重技术难题:需从社交媒体等动态源高效采集提示并确保语义完整性,同时为每条数据设计包含时长、分辨率、安全评级等属性的高扩展性JSONL结构;跨语言(中英文)对齐与标签体系标准化亦增加了处理复杂度。此外,版权合规与数据质量控制——如过滤低质或重复提示——对大规模自动化流水线提出了严苛要求,最终成功实现了将松散网络数据转化为结构化资产的关键突破。
常用场景
经典使用场景
在人工智能视频生成领域,精准的提示词(prompt)是驱动模型产生高质量输出的关键。Seedance-2-prompts-datasets 作为字节跳动 Seedance 2.0 模型的专用提示词数据集,其最经典的使用场景在于为文生视频(Text-to-Video)任务提供大规模、结构化、多语言的提示词样本。研究者可借助该数据集中的 2000 余条详尽条目,系统地探索提示词工程(Prompt Engineering)的策略与范式,如场景描述、动作刻画、风格引导等要素对视频生成效果的影响。数据集内嵌的中英文双语提示词及涵盖‘娱乐’、‘自然’等多类别的标签体系,使其成为训练和评估视频生成模型理解复杂语义指令的理想基准资源,有效弥合了自然语言描述与视觉内容生成间的鸿沟。
实际应用
该数据集在实际应用中展现出多样的价值。对于从事视频内容创作的专业人士,如自媒体运营者、广告设计师,该数据集是一个灵感宝库,其中的案例展示了如何通过精确的语言来调控生成视频的叙事节奏和视觉风格,从而快速生成概念原型或视觉素材。对于人工智能模型的开发者,此数据集可被无缝集成至现有的AI工具链中,作为微调视频生成模型的训练数据,或用于构建提示词自动化推荐与优化系统。此外,数据集的跨平台兼容性(支持中文与英文)使其特别适用于全球化的商业应用场景,例如生成多语言版本的营销视频或教育内容,极大地降低了高质量视频制作的门槛。
衍生相关工作
围绕 Seedance-2-prompts-datasets,已孕育出一系列富有影响力的衍生工作。在数据基础设施层面,GokuOpenLab 基于该结构化数据开发了在线浏览平台(PromptHub),实现了便捷的检索与预览功能,进一步降低了数据的获取门槛。在学术研究层面,该数据集为提示词工程领域提供了实证基础,研究人员可据此分析不同复杂度的提示词对 Seedance 2.0 等视频模型生成质量(如时长、分辨率、安全评级)的具体影响,从而推导出更高效的提示词构建策略。其 JSONL 的标准化格式也催生了若干自动化数据处理与分析的脚本库,这些工作共同构建了一个围绕提示词数据收集、结构化、分析与应用的开源生态,巩固了数据集作为文生视频社区关键枢纽的地位。
以上内容由遇见数据集搜集并总结生成



