five

creative-graphic-design/PosterErase

收藏
Hugging Face2023-11-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/creative-graphic-design/PosterErase
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - machine-generated language: - zh language_creators: - found license: - cc-by-sa-4.0 multilinguality: - monolingual pretty_name: PosterErase size_categories: [] source_datasets: - original tags: - graphic design task_categories: - other task_ids: [] --- # Dataset Card for PosterErase [![CI](https://github.com/shunk031/huggingface-datasets_PosterErase/actions/workflows/ci.yaml/badge.svg)](https://github.com/shunk031/huggingface-datasets_PosterErase/actions/workflows/ci.yaml) ## Table of Contents - [Dataset Card Creation Guide](#dataset-card-creation-guide) - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Initial Data Collection and Normalization](#initial-data-collection-and-normalization) - [Who are the source language producers?](#who-are-the-source-language-producers) - [Annotations](#annotations) - [Annotation process](#annotation-process) - [Who are the annotators?](#who-are-the-annotators) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://github.com/alimama-creative/Self-supervised-Text-Erasing - **Repository:** https://github.com/shunk031/huggingface-datasets_PosterErase - **Paper (Preprint):** https://arxiv.org/abs/2204.12743 - **Paper (ACMMM2022):** https://dl.acm.org/doi/abs/10.1145/3503161.3547905 ### Dataset Summary ### Supported Tasks and Leaderboards [More Information Needed] ### Languages The language data in PKU-PosterLayout is in Chinese (BCP-47 zh). ## Dataset Structure ### Data Instances To use PosterErase dataset, you need to download the dataset via [Alibaba Cloud](https://tianchi.aliyun.com/dataset/134810). Then place the downloaded files in the following structure and specify its path. ``` /path/to/datasets ├── erase_1.zip ├── erase_2.zip ├── erase_3.zip ├── erase_4.zip ├── erase_5.zip └── erase_6.zip ``` ```python import datasets as ds dataset = ds.load_dataset( path="shunk031/PosterErase", data_dir="/path/to/datasets/", ) ``` ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data [More Information Needed] #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations [More Information Needed] #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information You can find the following statement in [the license section](https://tianchi.aliyun.com/dataset/134810#license) of t[he dataset distribution location](https://tianchi.aliyun.com/dataset/134810). > The dataset is distributed under the CC BY-SA 4.0 license. However, the license setting on that page appears to be set to [CC-BY-SA-NC 4.0](http://creativecommons.org/licenses/by-sa/4.0/?spm=a2c22.12282016.0.0.7abc5a92qnyxdR). ### Citation Information ```bibtex @inproceedings{jiang2022self, title={Self-supervised text erasing with controllable image synthesis}, author={Jiang, Gangwei and Wang, Shiyao and Ge, Tiezheng and Jiang, Yuning and Wei, Ying and Lian, Defu}, booktitle={Proceedings of the 30th ACM International Conference on Multimedia}, pages={1973--1983}, year={2022} } ``` ### Contributions Thanks to [alimama-creative](https://github.com/alimama-creative) for creating this dataset.

--- 注释生成者: - 机器生成 语言: - zh 语言生成方式: - 公开采集(found) 授权协议: - 知识共享署名-相同方式共享4.0(CC BY-SA 4.0) 多语言属性: - 单语言 数据集展示名: PosterErase 数据规模类别: [] 源数据集: - 原创 标签: - 平面设计(graphic design) 任务类别: - 其他 任务子项: [] --- # PosterErase 数据集卡片 [![CI](https://github.com/shunk031/huggingface-datasets_PosterErase/actions/workflows/ci.yaml/badge.svg)](https://github.com/shunk031/huggingface-datasets_PosterErase/actions/workflows/ci.yaml) ## 目录 - [数据集卡片创建指南](#dataset-card-creation-guide) - [目录](#table-of-contents) - [数据集概述](#dataset-description) - [数据集总结](#dataset-summary) - [支持任务与基准测试集](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建初衷](#curation-rationale) - [源数据](#source-data) - [初始数据收集与标准化](#initial-data-collection-and-normalization) - [源语言生产者](#who-are-the-source-language-producers) - [注释](#annotations) - [注释流程](#annotation-process) - [注释者](#who-are-the-annotators) - [个人与敏感信息](#personal-and-sensitive-information) - [数据集使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限性](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [授权信息](#licensing-information) - [引用信息](#citation-information) - [贡献致谢](#contributions) ## 数据集概述 - **主页链接**: https://github.com/alimama-creative/Self-supervised-Text-Erasing - **代码仓库**: https://github.com/shunk031/huggingface-datasets_PosterErase - **预印本论文**: https://arxiv.org/abs/2204.12743 - **ACMMM2022 会议论文**: https://dl.acm.org/doi/abs/10.1145/3503161.3547905 ### 数据集总结 [需补充更多信息] ### 支持任务与基准测试集 [需补充更多信息] ### 语言 本数据集PKU-PosterLayout中的语言数据采用中文(BCP-47语言标签:zh)。 ## 数据集结构 ### 数据实例 使用PosterErase数据集前,需先通过[阿里云天池平台](https://tianchi.aliyun.com/dataset/134810)下载该数据集,随后将下载的文件按照如下结构放置,并指定对应路径: /path/to/datasets ├── erase_1.zip ├── erase_2.zip ├── erase_3.zip ├── erase_4.zip ├── erase_5.zip └── erase_6.zip 可通过如下Python代码加载数据集: python import datasets as ds dataset = ds.load_dataset( path="shunk031/PosterErase", data_dir="/path/to/datasets/", ) ### 数据字段 [需补充更多信息] ### 数据划分 [需补充更多信息] ## 数据集构建 ### 构建初衷 [需补充更多信息] ### 源数据 [需补充更多信息] #### 初始数据收集与标准化 [需补充更多信息] #### 源语言生产者 [需补充更多信息] ### 注释 [需补充更多信息] #### 注释流程 [需补充更多信息] #### 注释者 [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 授权信息 可在该数据集发布页面的[授权板块](https://tianchi.aliyun.com/dataset/134810#license)中找到如下声明: > 本数据集采用知识共享署名-相同方式共享4.0(CC BY-SA 4.0)许可协议进行分发。 但该页面上的许可设置实际显示为[CC-BY-SA-NC 4.0](http://creativecommons.org/licenses/by-sa/4.0/?spm=a2c22.12282016.0.0.7abc5a92qnyxdR)。 ### 引用信息 bibtex @inproceedings{jiang2022self, title={可控图像合成的自监督文本擦除方法}, author={Jiang, Gangwei and Wang, Shiyao and Ge, Tiezheng and Jiang, Yuning and Wei, Ying and Lian, Defu}, booktitle={第30届ACM国际多媒体会议论文集}, pages={1973--1983}, year={2022} } ### 贡献致谢 感谢[alimama-creative](https://github.com/alimama-creative)团队创建本数据集。
提供机构:
creative-graphic-design
原始信息汇总

数据集卡片:PosterErase

数据集描述

  • 语言:中文 (BCP-47 zh)
  • 许可证:CC BY-SA 4.0
  • 标签:graphic design
  • 任务类别:other

数据集结构

数据实例

数据集需要从 Alibaba Cloud 下载,并按照以下结构放置:

/path/to/datasets ├── erase_1.zip ├── erase_2.zip ├── erase_3.zip ├── erase_4.zip ├── erase_5.zip └── erase_6.zip

加载数据集的示例代码:

python import datasets as ds

dataset = ds.load_dataset( path="shunk031/PosterErase", data_dir="/path/to/datasets/", )

许可证信息

数据集遵循 CC BY-SA 4.0 许可证。

引用信息

bibtex @inproceedings{jiang2022self, title={Self-supervised text erasing with controllable image synthesis}, author={Jiang, Gangwei and Wang, Shiyao and Ge, Tiezheng and Jiang, Yuning and Wei, Ying and Lian, Defu}, booktitle={Proceedings of the 30th ACM International Conference on Multimedia}, pages={1973--1983}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
PosterErase数据集的构建源于对平面设计领域文本擦除技术的深入研究。该数据集通过机器生成的方式,系统性地收集并标注了中文海报图像中的文本区域,旨在为自监督文本擦除任务提供高质量的基准数据。其构建过程严格遵循学术规范,确保了数据的可靠性与一致性,为后续的算法开发与评估奠定了坚实基础。
特点
PosterErase数据集在图形设计领域展现出鲜明的特色。作为单语种中文数据集,它专注于海报图像中的文本擦除任务,涵盖了多样化的设计风格与文本布局。数据集以CC BY-SA 4.0许可证发布,促进了学术共享与协作。其结构清晰,支持灵活的数据加载与处理,为研究者提供了便捷的实验平台。
使用方法
使用PosterErase数据集时,需从指定云平台下载压缩文件,并按照要求组织目录结构。通过Hugging Face的datasets库,用户可以轻松加载数据集,并指定本地数据路径进行访问。该数据集适用于自监督文本擦除模型的训练与评估,为图形设计与计算机视觉的交叉研究提供了实用工具。
背景与挑战
背景概述
PosterErase数据集由阿里巴巴集团的研究团队于2022年构建,其核心研究聚焦于图形设计领域的文本擦除任务。该数据集旨在支持自监督学习框架下的可控图像合成,为海报设计中的文本元素移除提供基准数据。通过结合机器生成的标注与真实场景的海报图像,PosterErase推动了多媒体内容编辑技术的发展,并在ACM Multimedia等顶级会议上得到认可,对计算机视觉与图形设计的交叉领域产生了显著影响。
当前挑战
PosterErase数据集面临的挑战主要涵盖两个方面:在领域问题层面,文本擦除任务需处理复杂背景下的字体多样性、颜色融合及纹理干扰,确保移除文本后图像视觉连贯性;在构建过程中,数据收集依赖于真实海报图像,需克服版权合规与标注一致性难题,同时自监督方法对合成数据的真实性与可控性提出了较高要求。
常用场景
经典使用场景
在视觉内容生成与编辑领域,PosterErase数据集为自监督文本擦除任务提供了关键支持。该数据集通过机器生成的标注,专注于从海报图像中移除文本元素,同时保持背景视觉内容的完整性。其经典使用场景涉及训练深度学习模型,特别是生成对抗网络(GAN)和扩散模型,以实现精准的文本检测与擦除,为图像修复和内容编辑研究奠定数据基础。
衍生相关工作
基于PosterErase数据集,衍生出多项经典研究工作,如自监督文本擦除框架的提出,该框架结合了可控图像合成技术,显著提升了文本移除的精度与自然度。相关成果发表于ACM Multimedia 2022等顶级会议,推动了图像编辑模型的发展。后续研究进一步扩展了该数据集的应用,例如结合多模态学习进行文本-图像对齐,以及开发更高效的实时擦除算法,为视觉内容生成领域注入了创新动力。
数据集最近研究
最新研究方向
在视觉设计与多媒体处理领域,PosterErase数据集作为专注于海报文本擦除任务的资源,正推动自监督学习与可控图像合成的前沿探索。该数据集源于ACMMM2022会议的研究成果,通过机器生成的标注支持中文环境下的图形设计应用,其核心在于利用合成图像技术实现文本元素的精准移除,同时保持海报视觉结构的完整性。当前研究热点集中于结合生成对抗网络(GAN)与扩散模型,以提升擦除过程的真实性与可控性,这为广告设计、文化遗产修复等实际场景提供了高效解决方案,促进了跨模态内容编辑技术的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作