AVA-aesthetics-10pct-min50-10bins

Hugging Face2025-02-23 更新2025-02-24 收录

下载链接：

https://huggingface.co/datasets/trojblue/AVA-aesthetics-10pct-min50-10bins

下载链接

链接失效反馈

官方服务：

资源简介：

AVA美学10%子集（至少50票，10个区间）是一个经过精心挑选的原始AVA美学数据集的10%子集。它包含了至少有50个总投票且根据计算的美学得分被分层到10个区间中的图像。数据集包含图像ID、图像文件、平均得分、总投票数和评分计数等字段。

AVA Aesthetics 10% Subset (≥50 votes, 10 bins) is a meticulously curated 10% subset of the original AVA Aesthetics Dataset. It comprises images that have received a minimum of 50 total votes and are stratified into 10 bins based on their computed aesthetic scores. The dataset includes fields such as image ID, image file, average aesthetic score, total vote count, and rating count.

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

本数据集是通过精心的筛选与分层构建方法形成的。首先，从AVA审美数据集中提取出至少获得50次评分的图像。接着，根据计算出的平均审美分数将这些图像划分为10个等间隔的区间，并从每个区间中随机选取10%的图像，以形成最终的子集。此过程保证了数据集在审美质量上的均衡分布，并转换成Hugging Face数据集格式，分为训练集和验证集，以便于机器学习模型的开发与训练。

特点

AVA-aesthetics-10pct-min50-10bins数据集具有以下显著特点：其一是图像数量的精简，为原始AVA数据集的10%，降低了计算复杂度，同时保持了数据的代表性；其二是评分的均衡分层，确保了数据集在审美评分上的均匀覆盖；其三是包含了丰富的数据字段，如唯一图像标识符、图像本身、平均分数、总投票数以及评分计数列表，为研究提供了多角度的信息。

使用方法

用户可通过Hugging Face的datasets库直接加载本数据集，利用其提供的字段如'image_id'、'image'、'mean_score'、'total_votes'和'rating_counts'进行图像审美质量的评估、计算机视觉研究以及模型的基准测试等。此外，用户需注意，本数据集仅为原始数据集的子集，可能无法涵盖所有多样性，使用时应考虑其在更大数据集上的泛化能力。

背景与挑战

背景概述

AVA-aesthetics-10pct-min50-10bins数据集是基于Murray等人于2012年描述的AVA Aesthetics Dataset的一个精心策划的子集，旨在为美学质量评估研究提供便利。该数据集由Christopher Beckham等人创建，包含了至少有50次评分的图像，并根据计算出的平均美学分数将图像分层到10个等间隔的区间中，每个区间随机选取10%的样本，以保持数据集在美学质量上的平衡代表性。该数据集自发布以来，在计算机视觉和图像美学评估领域产生了广泛影响，为相关研究提供了重要的实验资源。

当前挑战

该数据集在研究领域中面临的挑战主要包括：如何确保子集能够有效代表原始数据集的多样性；如何处理由于分层和随机抽样可能引入的偏差；以及如何处理某些图像文件缺失的问题。此外，由于数据集规模仅为原始数据集的10%，这限制了其在训练具有广泛泛化能力的模型方面的应用，因此需要在使用时谨慎考虑数据集的局限性，并在可能的情况下在更大的数据集上进行模型评估和验证。

常用场景

经典使用场景

在图像美学评价领域，AVA Aesthetics 10% Subset (min50, 10 bins)数据集的经典使用场景主要在于构建和训练图像美学评分模型。该数据集通过将图像根据美学评分划分为十个区间，并从中随机抽取10%的样本，为研究人员提供了一个均衡且具有代表性的训练集，以预测图像的美学质量。

衍生相关工作

基于该数据集，研究者已经开展了一系列相关工作，包括但不限于开发新的美学评分算法、特征提取技术和模型评估方法。这些衍生工作进一步推动了图像美学评价领域的发展，并在计算机视觉和多媒体研究领域产生了广泛的影响。

数据集最近研究