five

Movie-Poster

收藏
arXiv2024-06-24 更新2024-06-26 收录
下载链接:
https://github.com/biedaxiaohua/Artistic-style-text-detection
下载链接
链接失效反馈
官方服务:
资源简介:
Movie-Poster数据集由重庆理工大学计算机科学与工程学院创建,包含1500张电影海报,其中1100张用于训练,400张用于测试。该数据集专注于艺术风格文本,特别是电影海报标题,这些标题具有高度的个性化和风格化,可能出现在任何角度,并且字符间可能存在连接和重叠。创建过程中,数据集旨在解决艺术风格文本数据稀缺的问题,并通过其独特的文本特征,为文本检测算法提供挑战。应用领域主要集中在提高计算机视觉中艺术风格文本的检测能力,解决现有算法在复杂结构文本检测中的不足。

The Movie-Poster Dataset was created by the School of Computer Science and Engineering, Chongqing University of Technology. It consists of 1500 movie posters, with 1100 allocated for training and 400 for testing. This dataset focuses on art-style text, specifically movie poster titles, which are highly personalized and stylized, may appear at arbitrary angles, and may feature connected or overlapping characters. The dataset was developed to address the scarcity of art-style text data, and poses challenges for text detection algorithms due to its unique text characteristics. Its main application scenarios center on enhancing the detection capability of art-style text in computer vision, and mitigating the shortcomings of existing algorithms in detecting complex structured text.
提供机构:
重庆理工大学计算机科学与工程学院
创建时间:
2024-06-24
原始信息汇总

艺术风格文本检测

数据集描述

  • 数据集名称:Artistic-style-text-detection
  • 数据集内容:电影海报
  • 数据集链接Movie-Poster
搜集汇总
数据集介绍
main_image_url
构建方式
Movie-Poster数据集的构建是为了解决当前文本检测算法在面对复杂结构的艺术风格文本时性能下降的问题。该数据集收集了1500张电影海报,其中1100张用于训练,400张用于测试。这些海报中的标题通常采用个性化的艺术字体,具有各种形状和角度,字符之间可能存在连接和重叠。为了丰富当前稀缺的艺术风格文本数据,该数据集被创建出来,以供文本检测算法研究和开发使用。
特点
Movie-Poster数据集的特点在于其包含了大量具有复杂结构和艺术风格的文本实例。这些文本实例的形状不规则,角度多变,字符之间可能存在连接和重叠,背景元素可能与文本混合,使得文本区域的检测变得更加困难。此外,该数据集还包含了多语种文本,主要以英语和中文为主,进一步增加了数据集的多样性。
使用方法
使用Movie-Poster数据集的方法包括以下步骤:首先,将文本区域随机裁剪并调整大小,以便于模型的训练。然后,使用Adam优化器进行训练,不使用预训练数据,初始学习率设置为0.0001或0.001,并在每个50个epoch后衰减0.9。数据增强包括随机旋转、随机裁剪和随机翻转。训练过程中,输入图像的尺寸设置为640 × 640,训练批次大小设置为4。在推理阶段,保持测试图像的宽高比,然后调整大小并填充到相同尺寸进行测试。训练和测试均在单个GPU上进行。
背景与挑战
背景概述
随着多媒体内容的丰富,准确识别图像中的文本信息对于提高搜索能力、自动化数据录入和智能图像理解至关重要。在文本检测领域,尽管现有的算法在常规场景下表现良好,但在处理艺术风格文本时,由于其复杂结构,其性能会下降。为了解决这个问题,Ning等人提出了一种新的方法,该方法利用Criss-Cross Attention和残差密集块来应对当前算法在艺术风格文本检测中存在的不完整和误诊问题。他们收集了一个名为Movie-Poster的数据集,以解决市场上艺术风格文本数据稀缺的问题。该数据集包含1500张电影海报,其中1100张用于训练,400张用于测试。海报标题通常使用艺术化的字体,呈现出各种形状,有的甚至有字符之间的连接和重叠。该数据集的提出对于艺术风格文本检测领域具有重要意义,为后续研究提供了宝贵的数据资源。
当前挑战
艺术风格文本检测领域面临着以下挑战:1)艺术风格文本的形状不规则,具有极端的长宽比,这使得边界建模容易失真;2)艺术风格文本往往与背景像素混合,导致现有的方法容易将背景像素误认为文本像素;3)市场上艺术风格文本数据稀缺,难以获取足够的训练数据。针对这些挑战,Ning等人提出了一种新的特征增强网络和特征融合方法,以及一个新的边界判别模块,以提高模型对复杂结构的感知能力,并有效抑制背景噪声的影响。此外,他们还提出了Movie-Poster数据集,以填补市场上艺术风格文本数据的空白。这些方法的提出对于艺术风格文本检测领域具有重要意义,为后续研究提供了新的思路和方向。
常用场景
经典使用场景
Movie-Poster数据集主要用于艺术风格文本检测。该数据集包含1500张电影海报,其中1100张用于训练,400张用于测试。电影海报的标题通常使用艺术风格的字体,形状多样,角度各异,甚至字符之间可能存在连接和重叠。这些特点使得检测这些文本区域变得更加困难,因为现有的算法难以准确地识别和分割文本区域,从而阻碍了有效的特征学习。
解决学术问题
Movie-Poster数据集解决了艺术风格文本数据稀缺的问题。在现有的数据集中,如Total-Text和CTW1500,文本实例的形状更加标准化,只包含少量艺术风格文本。Movie-Poster数据集的引入丰富了艺术风格文本数据,使得研究人员可以更好地研究艺术风格文本检测问题。此外,Movie-Poster数据集还提供了多语言的数据,包括英语和中文,使得模型可以在不同的语言环境下进行训练和测试。
衍生相关工作
Movie-Poster数据集的引入推动了艺术风格文本检测领域的研究。基于该数据集,研究人员提出了许多新的算法和方法,如RCCA模块、R-FPN模块和BDM模块等。这些模块有效地提高了模型对复杂结构的感知能力,抑制了背景噪声的影响,并确保了边界建模的准确性。此外,Movie-Poster数据集还促进了艺术风格文本检测领域的开源代码和模型的发布,如Artistic-style Text Detection等。这些开源代码和模型使得研究人员可以更容易地进行艺术风格文本检测研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作