five

afmck/peanuts-opt-6.7b

收藏
Hugging Face2023-04-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/afmck/peanuts-opt-6.7b
下载链接
链接失效反馈
官方服务:
资源简介:
Peanuts Comic Strip Dataset (Snoopy & Co.)数据集包含了从1950年10月2日到2000年2月13日的Peanuts漫画条,共提取了77,457个面板,数据集大小约为4.4G。每个数据行包含以下字段:图像(提取的面板)、面板名称(唯一标识符)、角色(漫画条中包含的角色)、主题(漫画条中的主题)、颜色(面板是灰度还是彩色)、描述(由BLIP-2_OPT_6.7B模型生成的面板描述)和年份(面板发布的年份)。角色和主题信息从Peanuts Wiki提取,图像从Peanuts Search提取。由于使用了BLIP-2_OPT_6.7B模型生成描述,该数据集不能用于商业项目。

Peanuts Comic Strip Dataset (Snoopy & Co.)数据集包含了从1950年10月2日到2000年2月13日的Peanuts漫画条,共提取了77,457个面板,数据集大小约为4.4G。每个数据行包含以下字段:图像(提取的面板)、面板名称(唯一标识符)、角色(漫画条中包含的角色)、主题(漫画条中的主题)、颜色(面板是灰度还是彩色)、描述(由BLIP-2_OPT_6.7B模型生成的面板描述)和年份(面板发布的年份)。角色和主题信息从Peanuts Wiki提取,图像从Peanuts Search提取。由于使用了BLIP-2_OPT_6.7B模型生成描述,该数据集不能用于商业项目。
提供机构:
afmck
原始信息汇总

数据集概述

基本信息

  • 名称: Peanuts Dataset (Snoopy and Co.)
  • 许可证: 非商业用途
  • 语言: 英语
  • 大小: 10,000 < n < 100,000 项

数据集内容

  • 特征:
    • image: 图像数据
    • panel_name: 字符串,唯一标识符
    • characters: 字符串序列,包含的漫画角色
    • themes: 字符串序列,包含的主题
    • color: 字符串,指示图像为灰度或彩色
    • year: 整数,发布年份
    • caption: 字符串,图像的描述

数据集划分

  • 训练集:
    • num_examples: 77,456 项
    • num_bytes: 2,948,640,650.848 字节
    • download_size: 4,601,323,640 字节
    • dataset_size: 2,948,640,650.848 字节

数据集细节

  • 提取角色: 仅包含特定角色,如 Charlie Brown, Snoopy 等。
  • 图像提取: 使用特定代码块进行面板检测和提取,拒绝面积小于600或宽高比不在0.5到2之间的面板。
  • 颜色检测: 通过特定代码块判断图像是否为灰度。
  • 描述生成: 使用BLIP-2模型生成图像描述,未进行后处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作