Reddit Photo Critique Dataset (RPCD)
收藏arXiv2022-09-21 更新2024-06-21 收录
下载链接:
https://github.com/mediatechnologycenter/aestheval
下载链接
链接失效反馈官方服务:
资源简介:
Reddit Photo Critique Dataset (RPCD) 是一个大规模的图像美学评估数据集,由苏黎世联邦理工学院媒体技术中心创建。该数据集包含74,000张图像和220,000条评论,这些数据是从Reddit社区收集的,该社区由业余和专业摄影师组成,他们利用社区反馈来提高摄影技巧。RPCD数据集与以往的美学数据集不同,主要体现在三个方面:数据集的规模大,评论扩展到图像的不同方面;大多数图像为超高清(UltraHD);数据集可以通过自动管道轻松扩展到新数据。该数据集的应用领域包括图像美学评估和美学图像字幕生成,旨在解决图像美学质量的自动估计问题。
Reddit Photo Critique Dataset (RPCD) is a large-scale image aesthetic assessment dataset developed by the Media Technology Center of ETH Zurich. It contains 74,000 images and 220,000 comments collected from the Reddit community, which is composed of amateur and professional photographers who utilize community feedback to improve their photographic skills. Distinct from prior aesthetic datasets, RPCD has three key distinguishing features: firstly, its large scale and comments covering diverse aspects of the images; secondly, most of its images are UltraHD; thirdly, the dataset can be readily extended to new data via an automated pipeline. The dataset has applications in image aesthetic assessment and aesthetic image captioning, aiming to solve the problem of automatic estimation of image aesthetic quality.
提供机构:
苏黎世联邦理工学院媒体技术中心
创建时间:
2022-06-17
搜集汇总
数据集介绍

构建方式
Reddit Photo Critique Dataset (RPCD) 的构建主要依赖于 Reddit 社区中摄影爱好者上传的照片及其所获得的评论。研究人员首先筛选出适合构建数据集的 Reddit 社区,然后通过自动化流程下载这些社区中发布的帖子及其评论。这些评论通常包括对照片不同方面的批评,如构图、色彩、主题等。为了确保评论的质量和相关性,研究人员采用了自动化的过滤流程,保留了第一层的评论,并去除了描述和后续的评论。最终,RPCD 包含了 74K 张高分辨率照片和 220K 条评论。
使用方法
使用 RPCD 数据集进行美学评估时,首先需要对评论进行情感极性分析,从而得到照片的美学评分。研究人员可以使用各种情感分析模型,如 TwitterRoBERTa,对评论进行情感极性分析。然后,将得到的情感评分与照片的美学评分进行关联分析,以验证情感评分的有效性。此外,RPCD 数据集还可以用于美学图像描述任务,通过训练模型生成具有美学评价的图像描述。在训练过程中,可以使用 ViT 等深度学习模型,并结合评论信息进行训练。
背景与挑战
背景概述
在计算机视觉领域,自动评估图像的审美价值一直是一个具有挑战性的任务,因为审美的主观性。尽管许多数据集已经通过提供基于人类评分的图像对和审美分数来解决这个问题,但人类更擅长通过语言来表达他们的观点、品味和情感,而不是将它们总结为一个单一的数字。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户是如何以及为什么对视觉刺激物的审美进行评分的。鉴于此,我们提出了Reddit Photo Critique Dataset (RPCD),它包含图像和照片评论的元组。RPCD由74K图像和220K评论组成,是从一个Reddit社区收集的,该社区被业余和专业摄影师用来通过利用建设性的社区反馈来提高他们的摄影技能。该数据集与以前的美学数据集主要在三个方面有所不同,即(i)数据集的大规模和评论批评图像不同方面的扩展,(ii)它主要包含UltraHD图像,(iii)它可以很容易地通过自动管道扩展到新数据。据我们所知,在这项工作中,我们首次尝试从评论中估计视觉刺激的审美质量。为此,我们利用批评情绪的极性作为审美判断的指标。我们展示了情绪极性与两个美学评估基准的可用审美判断之间的正相关。最后,我们使用情绪分数作为目标对图像进行排名的几个模型进行了实验。数据集和基线可在1处获得。
当前挑战
RPCD数据集的构建过程中,我们面临着一些挑战。首先,评论数据的质量和数量对于模型训练至关重要,但由于评论的主观性和多样性,很难确保评论的准确性和一致性。其次,评论数据中的噪声和冗余可能会影响模型的性能,因此需要对数据进行清洗和预处理。最后,评论数据中的情感极性分析需要依赖情感分析模型,而现有的情感分析模型可能无法完全适应Reddit社区的语言风格和表达方式。
常用场景
经典使用场景
Reddit Photo Critique Dataset (RPCD) 是一个包含74K张图像和220K条评论的数据集,主要用于研究视觉美学评估。该数据集的特点在于其大规模、评论的扩展性以及超高清图像的包含。RPCD 数据集最经典的使用场景是作为视觉美学评估的基准数据集,用于训练和评估各种视觉美学评估模型。此外,该数据集还可以用于研究美学评论的生成,以及如何利用评论信息来评估图像的审美价值。
解决学术问题
RPCD 数据集解决了传统视觉美学评估数据集的局限性,即只包含图像和审美分数的配对,而忽略了人类在表达审美判断时更倾向于使用语言而不是数字。RPCD 数据集提供了丰富的评论信息,揭示了用户如何以及为什么评价视觉刺激的审美。这为研究视觉美学评估提供了一个新的视角,并为开发可解释的视觉美学评估模型提供了数据基础。
实际应用
RPCD 数据集在实际应用场景中可用于开发可解释的视觉美学评估模型,例如自动图像评级、图像排序和美学评论生成。此外,该数据集还可以用于研究用户在社交媒体上的行为,以及如何利用评论信息来评估图像的审美价值。
数据集最近研究
最新研究方向
Reddit Photo Critique Dataset (RPCD) 的最新研究方向主要聚焦于通过语言理解来评估图像的美学价值。该数据集包含 74K 张图像和 220K 条评论,为研究图像美学评估提供了丰富的语言信息。RPCD 的独特之处在于其大规模、评论的扩展性和超高清图像的包含,以及易于自动扩展的特性。最新的研究尝试从评论中直接估计视觉刺激的美学质量,利用评论的情感极性作为美学判断的指标。研究结果表明,情感极性与两个美学评估基准上的美学判断呈正相关。此外,研究人员还探索了使用情感分数对图像进行排序的多种模型。RPCD 的引入为设计多模态和可解释的美学评估模型做出了重要贡献,并为未来研究提供了丰富的数据资源。
相关研究论文
- 1Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment苏黎世联邦理工学院媒体技术中心 · 2022年
以上内容由遇见数据集搜集并总结生成



