Sakuga-42M Dataset|卡通动画数据集|大规模数据集数据集
收藏Sakuga-42M 数据集概述
数据集介绍
Sakuga-42M Dataset 是首个大规模的卡通动画数据集,包含4200万个关键帧。该数据集旨在缓解卡通动画研究领域长期面临的数据稀缺问题,并促进大规模模型和方法的发展,以帮助动画师更轻松地创作。
数据集内容
- 数据集规模: 包含4200万个关键帧。
 - 数据集用途: 主要用于卡通动画研究,支持大规模模型和方法的开发。
 - 数据集下载: 可通过填写此表单申请数据集parquet文件,并通过电子邮件接收下载链接。
 
数据集结构
| Split | 下载链接 | 关键帧数量 | 片段数量 | 视频数量 | 存储大小 | 
|---|---|---|---|---|---|
| Training(Full) | 链接 (529 MB) | 38,137,371 | 1,117,898 | 142,089 | ~441 GB | 
| Training (Aesthetic) | 链接 (74.5 MB) | 6,154,562 | 139,989 | 61,273 | ~56 GB | 
| Training (Small) | 链接 (53.6 MB) | 3,811,189 | 111,790 | 68,326 | ~45 GB | 
| Validation | 链接 (28.6 MB) | 2,035,853 | 59,717 | 44,564 | ~25 GB | 
| Testing | 链接 (28.5 MB) | 2,018,545 | 59,718 | 44,247 | ~25 GB | 
数据集准备
- 环境设置: 通过
git clone和conda创建环境,并安装必要的依赖。 - 数据下载: 通过填写表单申请数据集,下载并放置parquet文件,运行
download.py下载视频。 - 数据处理: 运行
split_video.py和detect_keyframes.py处理视频和提取关键帧。 
数据集展示
- 多样性: 展示了不同风格和来源的卡通动画样本。
 - 视频-文本描述对: 提供了视频片段及其对应的文本描述,用于视频内容理解和描述生成研究。
 
数据集引用
若使用此数据集,请引用以下文献: latex @article{sakuga42m2024, title = {Sakuga-42M Dataset: Scaling Up Cartoon Research}, author = {Zhenglin Pan, Yu Zhu, Yuxuan Mu}, journal = {arXiv preprint arXiv:2405.07425}, year = {2024} }
数据集许可
Sakuga-42M Dataset 根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权,仅限于学术研究使用。

Granary
Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。
arXiv 收录
Spambase
Spambase数据集是一个垃圾邮件数据集,包含57个属性和4601个实例。该数据集主要用于垃圾邮件的识别和分类。垃圾邮件的资源都来自邮件管理员和提交垃圾邮件的个人。可用于构建垃圾邮件过滤器。 该数据集由惠普实验室在1999年7月发布,马克·霍普金斯、埃里克·里伯、乔治·福尔曼和雅普·苏蒙德为主要贡献者。
OpenDataLab 收录
FlowBench
FlowBench是由爱荷华州立大学创建的一个大规模流体模拟数据集,包含超过10,000个样本,旨在评估神经PDE求解器在复杂几何形状上的性能。数据集涵盖了多种复杂几何形状(参数化和非参数化)和流体条件(雷诺数和格拉晓夫数),捕捉了从稳态到瞬态的各种流体现象。每个样本都包含速度、压力和温度场的数据,以及升力、阻力和努塞尔数等工程特征。FlowBench的创建过程包括使用高保真模拟器进行直接数值模拟,确保数据的准确性和可靠性。该数据集主要应用于工程领域,如航空航天、汽车设计和生物流体学,旨在解决复杂几何形状上的流体动力学问题。
arXiv 收录
boat
本项目所使用的数据集名为“boat”,旨在为改进YOLOv11的船舶类型检测系统提供丰富的训练素材。该数据集包含六个主要类别,分别为:散货船、集装箱船、渔船、一般货船、矿石运输船和客船。这些类别涵盖了船舶运输行业的多样性,确保了模型在不同类型船舶识别上的全面性和准确性。数据集中的图像经过精心挑选和标注,确保每个类别的样本都具有代表性。通过使用“boat”数据集,改进后的YOLOv11模型将能够更准确地识别和分类不同类型的船舶,从而提高船舶监测和管理的效率。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
