five

sadrasabouri/ShahNegar

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sadrasabouri/ShahNegar
下载链接
链接失效反馈
官方服务:
资源简介:
ShahNegar数据集是基于Ferdowsi的Shahnameh(波斯古代诗歌)的英文翻译版本,使用DALL-E mini模型生成的图像与文本配对。数据集包含超过30,000张256x256像素的图像,每段Shahnameh文本最多生成9张图像。数据集主要用于艺术价值展示,也可用于文本到图像和图像到文本的任务。数据集的创建过程中进行了人工注释,以去除有害或不相关的图像。

The ShahNegar dataset is built upon the English translation of Ferdowsi’s Shahnameh, an ancient Persian epic poem, and consists of image-text pairs generated with the DALL-E mini model. It contains over 30,000 256x256 pixel images, with up to 9 images generated for each segment of the Shahnameh text. Primarily intended for showcasing artistic value, this dataset can also be applied to text-to-image and image-to-text tasks. Manual annotation was conducted during the dataset's creation to remove harmful or irrelevant images.
提供机构:
sadrasabouri
原始信息汇总

数据集概述

数据集名称

  • 名称: ShahNegar
  • 别名: A Plotted version of The Shahnameh

数据集特征

  • 语言: 英语 (en)
  • 许可证: MIT
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源: 原创
  • 任务类别:
    • 图像到文本 (image-to-text)
    • 文本到图像 (text-to-image)
  • 任务ID: 图像标题生成 (image-captioning)

数据集内容

  • 内容描述: 包含超过30,000张图像及其对应的文本,源自Shahnameh的英文翻译版本。每段Shahnameh文本最多生成9张图像,图像与相同段落共享相同的id字段。

  • 数据实例结构: json { "image": <PIL Image Bytes>, "id": 0, "text": "文本内容" }

    • image: 对应文本的图像。
    • id: 文本的标识符。
    • text: 图像对应的英文文本。

数据集创建

  • 翻译来源: 从satoor网站提取的英文翻译。
  • 图像生成: 使用DALL-E mini模型通过在线API为每句生成9张图像。
  • 注释过程: 由Mahsa Namdar和Sadra Sabouri进行,主要处理与伊朗政治人物相关的无关或有害图像。

使用考虑

  • 社会影响: 主要用于艺术价值,也可用于图像到文本和文本到图像的任务。
  • 偏见讨论: 可能存在DALL-E mini模型的偏见,特别是对“伊朗”一词的处理。
  • 其他限制: 关于机器生成数据集的限制,存在关于使用此类数据集可能限制模型精度的争议。

数据集管理

  • 许可证: MIT
  • 贡献者:
    • Emad Fatemizadeh: 提出生成波斯诗歌图形版本的想法。
    • Sadra Sabouri: 查找并提取Shahnameh的翻译文本,使用DALL-E mini API生成图像。
    • Mahsa Namdar: 负责数据的后注释处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作