facebook/emu_edit_test_set|图像编辑数据集|评估基准数据集
收藏数据集卡片 - Emu Edit 测试集
数据集描述
数据集概述
为了创建一个图像编辑的基准,我们首先定义了七种不同类别的潜在图像编辑操作:背景改变(background)、全面图像变化(global)、风格改变(style)、对象移除(remove)、对象添加(add)、局部修改(local)和颜色/纹理改变(texture)。然后,我们利用MagicBrush 基准中的多样化输入图像,并为每个编辑操作,我们要求众包工作者设计相关、创造性和具有挑战性的指令。此外,为了提高收集示例的质量,我们应用了一个后验证阶段,其中众包工作者筛选出具有无关指令的示例。最后,为了支持需要输入和输出标题的方法(例如 prompt2prompt 和 pnp)的评估,我们还为每个示例收集了输入标题和输出标题。在这样做时,我们要求注释者确保标题捕捉图像中的重要元素,以及应根据指令改变的元素。此外,为了与 Emu Edit 进行适当比较,我们公开发布了测试集上的模型生成结果在此。更多详情请参见我们的论文和项目页面。
许可信息
采用 CC-BY-NC 4.0 许可,详情见此处。
引用信息
@inproceedings{Sheynin2023EmuEP, title={Emu Edit: Precise Image Editing via Recognition and Generation Tasks}, author={Shelly Sheynin and Adam Polyak and Uriel Singer and Yuval Kirstain and Amit Zohar and Oron Ashual and Devi Parikh and Yaniv Taigman}, year={2023}, url={https://api.semanticscholar.org/CorpusID:265221391} }
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录