sadrasabouri/ShahNegar
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sadrasabouri/ShahNegar
下载链接
链接失效反馈官方服务:
资源简介:
ShahNegar数据集是基于Ferdowsi的Shahnameh(波斯古代诗歌)的英文翻译版本,使用DALL-E mini模型生成的图像与文本配对。数据集包含超过30,000张256x256像素的图像,每段Shahnameh文本最多生成9张图像。数据集主要用于艺术价值展示,也可用于文本到图像和图像到文本的任务。数据集的创建过程中进行了人工注释,以去除有害或不相关的图像。
The ShahNegar dataset is built upon the English translation of Ferdowsi’s Shahnameh, an ancient Persian epic poem, and consists of image-text pairs generated with the DALL-E mini model. It contains over 30,000 256x256 pixel images, with up to 9 images generated for each segment of the Shahnameh text. Primarily intended for showcasing artistic value, this dataset can also be applied to text-to-image and image-to-text tasks. Manual annotation was conducted during the dataset's creation to remove harmful or irrelevant images.
提供机构:
sadrasabouri
原始信息汇总
数据集概述
数据集名称
- 名称: ShahNegar
- 别名: A Plotted version of The Shahnameh
数据集特征
- 语言: 英语 (en)
- 许可证: MIT
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原创
- 任务类别:
- 图像到文本 (image-to-text)
- 文本到图像 (text-to-image)
- 任务ID: 图像标题生成 (image-captioning)
数据集内容
-
内容描述: 包含超过30,000张图像及其对应的文本,源自Shahnameh的英文翻译版本。每段Shahnameh文本最多生成9张图像,图像与相同段落共享相同的
id字段。 -
数据实例结构: json { "image": <PIL Image Bytes>, "id": 0, "text": "文本内容" }
image: 对应文本的图像。id: 文本的标识符。text: 图像对应的英文文本。
数据集创建
- 翻译来源: 从satoor网站提取的英文翻译。
- 图像生成: 使用DALL-E mini模型通过在线API为每句生成9张图像。
- 注释过程: 由Mahsa Namdar和Sadra Sabouri进行,主要处理与伊朗政治人物相关的无关或有害图像。
使用考虑
- 社会影响: 主要用于艺术价值,也可用于图像到文本和文本到图像的任务。
- 偏见讨论: 可能存在DALL-E mini模型的偏见,特别是对“伊朗”一词的处理。
- 其他限制: 关于机器生成数据集的限制,存在关于使用此类数据集可能限制模型精度的争议。
数据集管理
- 许可证: MIT
- 贡献者:
- Emad Fatemizadeh: 提出生成波斯诗歌图形版本的想法。
- Sadra Sabouri: 查找并提取Shahnameh的翻译文本,使用DALL-E mini API生成图像。
- Mahsa Namdar: 负责数据的后注释处理。



