kietzmannlab/ecoset

Name: kietzmannlab/ecoset
Creator: kietzmannlab
Published: 2024-09-11 08:01:35
License: 暂无描述

Hugging Face2024-09-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kietzmannlab/ecoset

下载链接

链接失效反馈

官方服务：

资源简介：

Ecoset是一个典型的图像识别数据集，包含来自565个基本类别的150万张图像，这些类别在语言使用中频繁出现，并且被人类观察者评为具体的（例如‘桌子’是具体的，‘浪漫’不是）。Ecoset旨在提供比其对应物更高的生态有效性，其错误标记率低于5%，并且过滤了NSFW内容。数据集包括训练、测试和验证子集，所有这些都公开可用。

Ecoset is a typical image recognition dataset comprising 1.5 million images across 565 basic categories. These categories are frequently used in everyday language and rated as concrete by human observers (e.g., 'table' is concrete, while 'romance' is not). Ecoset aims to deliver higher ecological validity than its counterparts, with a mislabeling rate below 5% and all NSFW content filtered. The dataset includes training, test, and validation subsets, all of which are publicly available.

提供机构：

kietzmannlab

原始信息汇总

数据集概述

数据集名称

名称: Ecoset
别名: 无

数据集基本信息

类型: 图像分类
规模: 包含1.5 million张图像
类别数: 565个基本级别类别
数据集分割: 训练集、测试集、验证集

数据集特点

标签准确性: 错误标记率小于5%
内容过滤: 已过滤NSFW内容
生态有效性: 旨在提供比同类数据集更高的生态有效性

数据集用途

主要任务: 多类别图像分类
应用领域: 图像识别、计算机视觉

数据集结构

数据实例:
- 下载数据集大小: 155 GB
- 总磁盘使用量: 311 GB

数据集创建

类别选择依据: 基于美国电视和电影字幕中的词汇频率及人类观察者的具体性评级
图像来源: 来自ImageNet数据库或根据CC BY-NC-SA 2.0许可从Bing图像搜索和Flickr获取
数据清洗: 移除重复图像，确保每个类别的预期错误分类率低于4%

使用注意事项

社会影响: 旨在减少大型数据集常见的问题，如错误标记、类别偏见、错误表示和危险内容
偏见讨论: 尽管努力提供生态有效的数据集，但仍可能存在偏见，特别是在类别选择和图像包含方面
其他已知限制: 图像和类别分布未反映日常生活中婴儿和成人遇到的典型自然视觉输入

许可证信息

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 2.0 (cc-by-nc-sa-2.0)

引用信息

@article{mehrer2021ecologically, title={An ecologically motivated image dataset for deep learning yields better models of human vision}, author={Mehrer, Johannes and Spoerer, Courtney J and Jones, Emer C and Kriegeskorte, Nikolaus and Kietzmann, Tim C}, journal={Proceedings of the National Academy of Sciences}, volume={118}, number={8}, pages={e2011417118}, year={2021}, publisher={National Acad Sciences} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，构建具有生态效度的图像数据集对于提升模型对人类视觉系统的模拟能力至关重要。Ecoset数据集的构建过程体现了严谨的学术追求，其首先从美国影视字幕语料库中筛选出高频且被人类评价为具象的词汇，确定了565个基础类别。随后，研究团队从ImageNet数据库以及遵循CC BY-NC-SA 2.0协议的Bing图像搜索和Flickr平台采集图像，确保每个类别至少包含700张图片。通过实施严格的数据清洗流程，包括去重和采用雅虎NSFW检测模型过滤不当内容，将每类图像的预期误标率控制在4%以下，从而保障了数据的纯净度与标注准确性。

使用方法

为便于学术研究与应用开发，Ecoset数据集已集成于Hugging Face平台。使用者可通过`datasets`库直接加载，在调用`load_dataset`函数时需设置`verification_mode=no_checks`参数以确保下载顺利进行，并可选择指定缓存目录。数据集已预先划分为训练集、测试集和验证集，适用于多类别单标签图像分类任务，其结构与经典的ImageNet相似，能够无缝对接主流的计算机视觉模型训练流程。研究人员可借此数据集探索更具生态效度的视觉表征学习，或将其作为评估模型泛化性能的重要工具。

背景与挑战

背景概述

Ecoset数据集由Kietzmann实验室于2021年构建，旨在为计算机视觉领域提供一种生态效度更高的图像识别资源。该数据集由Johannes Mehrer、Courtney J. Spoerer、Emer C. Jones、Nikolaus Kriegeskorte和Tim C. Kietzmann等研究人员共同创建，核心研究问题聚焦于如何通过更符合人类视觉经验的图像数据，提升深度学习模型对人类视觉系统的模拟能力。Ecoset从ImageNet等来源精选了565个基本层次类别，涵盖约150万张图像，这些类别均基于词汇使用频率和人类感知的具体性评分筛选而成。该数据集的推出，为图像分类任务提供了更为严谨和低噪声的基准，对推动视觉计算模型的生态有效性研究产生了显著影响。

当前挑战

Ecoset数据集致力于解决图像分类领域中数据偏差与生态效度不足的挑战。传统大规模图像数据集常存在标签错误、类别分布失衡以及不安全内容等问题，Ecoset通过严格的数据清洗和类别筛选，将误标率控制在5%以下，并过滤了不适宜内容，以提升模型的可靠性与社会适用性。然而，在构建过程中，数据集仍面临诸多挑战：类别选择依赖于美国影视字幕的词汇频率，可能导致文化偏向；图像采集受限于Bing、Flickr等平台的可用性，难以全面覆盖多样化的真实场景；此外，人物类别的图像未能依据人口统计特征进行均衡采样，可能隐含表征偏差。这些因素共同制约了数据集在模拟自然主义视觉输入方面的完整性。

常用场景

经典使用场景

在计算机视觉领域，大规模图像分类数据集是推动模型发展的基石。Ecoset作为一项生态效度更高的图像识别资源，其经典应用场景集中于训练和评估深度神经网络在物体识别任务上的性能。该数据集通过精选565个基础类别、约150万张图像，并严格控制误标率低于5%，为研究者提供了一个比传统数据集更具生态真实性的基准平台。模型在此数据集上的训练，能够更准确地模拟人类视觉系统的识别机制，从而在图像分类、特征提取等核心任务上实现性能优化。

解决学术问题

Ecoset的构建旨在解决图像识别研究中长期存在的生态效度不足问题。传统数据集如ImageNet虽规模庞大，但常因标签噪声、类别偏差或内容不当而影响模型泛化能力。Ecoset通过依据词汇使用频率和人类感知具体性筛选类别，并采用严格的数据清洗流程，显著降低了误标率，过滤了不安全内容。这一举措不仅提升了数据集的可靠性，还为探索人类视觉与机器学习模型之间的对齐机制提供了高质量实验素材，推动了计算神经科学和计算机视觉的交叉研究。

实际应用

在实际应用层面，Ecoset为开发鲁棒的视觉识别系统提供了重要支撑。其高生态效度的特性使得基于该数据集训练的模型更易于迁移到真实世界场景，如智能监控、自动驾驶中的物体检测、医疗影像分析辅助诊断等领域。数据集对NSFW内容的过滤和版权合规性的注重，也降低了部署过程中的伦理与法律风险。此外，Ecoset可作为预训练数据源，提升下游任务模型的性能，为工业界构建安全、可靠的视觉应用奠定了数据基础。

数据集最近研究