lance-format/food101-lance

Name: lance-format/food101-lance
Creator: lance-format
Published: 2026-05-09 18:36:39
License: 暂无描述

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/lance-format/food101-lance

下载链接

链接失效反馈

官方服务：

资源简介：

Food-101 (Lance Format)是Food-101数据集的Lance格式版本，包含101,000张食物照片，涵盖101个类别。数据来源于`ethz/food101`数据集，并包含了内联的JPEG字节、CLIP图像嵌入和IVF_PQ索引。数据集分为训练集和验证集，分别有75,750和25,250行数据。每行数据包含id、image、label、label_name和image_emb等列。

Lance-formatted version of Food-101 — 101,000 food photographs across 101 classes — sourced from `ethz/food101`. Inline JPEG bytes + CLIP image embeddings + IVF_PQ. The dataset is divided into training and validation sets with 75,750 and 25,250 rows respectively. Each row contains columns such as id, image, label, label_name, and image_emb.

提供机构：

lance-format

原始信息汇总

以下是数据集 lance-format/food101-lance 的详细概述：

数据集简介

名称：Food-101 (Lance Format)
描述：这是原始 Food-101 数据集的 Lance 格式版本，包含 101,000 张食物照片，覆盖 101 个类别。数据来源于 ethz/food101。
许可协议：Other（其他，详情请参见原始数据集页面）

任务与模态

任务：图像分类、图像特征提取
模态：图像、文本

数据集规模

总行数：101,000 行（训练集 75,750 行 + 验证集 25,250 行）
总文件大小：6.35 GB
数据量：10K - 100K

数据格式与语言

格式：Lance
语言：英语

数据列 Schema

列名	类型	说明
`id`	`int64`	行索引（在每个 split 内）
`image`	`large_binary`	内联 JPEG 字节数据
`label`	`int32`	类别 ID（0-100）
`label_name`	`string`	101 种菜肴名称之一（如 `apple_pie`, `baby_back_ribs` 等）
`image_emb`	`fixed_size_list<float32, 512>`	OpenCLIP `ViT-B-32` 模型的嵌入向量（已做余弦归一化）

数据集划分 (Splits)

Split 名称	行数
`train.lance`	75,750
`validation.lance`	25,250

预建索引

IVF_PQ：基于 image_emb 列，使用余弦距离度量
BTREE：基于 label 列
BITMAP：基于 label_name 列

标签与元信息

标签：food-101, fine-grained, lance, clip-embeddings
库支持：Datasets, Lance, Croissant

引用

bibtex @inproceedings{bossard2014food, title={Food-101 -- Mining Discriminative Components with Random Forests}, author={Bossard, Lukas and Guillaumin, Matthieu and Van Gool, Luc}, booktitle={European Conference on Computer Vision (ECCV)}, year={2014} }

搜集汇总

数据集介绍

构建方式

food101-lance数据集是对经典细粒度图像分类基准Food-101的高效重构，源自ETH Zurich团队收集的101类共101,000张食物照片。该版本采用Lance列式存储格式，不仅保留了原始的JPEG图像字节与类别标签，还创新性地嵌入了经OpenCLIP ViT-B-32模型预提取的512维余弦归一化特征向量。数据集划分为训练集（75,750张）与验证集（25,250张），并预先构建了基于IVF_PQ的向量索引、B树标签索引及位图标签名索引，为下游检索任务提供了即用型基础设施。

特点

该数据集的核心优势在于其多模态与高效检索能力的深度融合。通过内置CLIP图像嵌入与预构建的IVF_PQ倒排索引，研究者在进行视觉相似性搜索时无需重复特征提取，可直接利用余弦距离实现亚秒级近似最近邻查询。此外，JPEG字节的内联存储避免了外部文件依赖，结合Lance格式的原生列式压缩与随机访问特性，在百万级规模下仍能保持低延迟的数据加载与过滤性能。

使用方法

使用者可通过Lance Python库直接加载HuggingFace仓库中的数据分片，例如`lance.dataset('hf://.../validation.lance')`完成验证集初始化。支持基于标签名的过滤操作（如筛选'sushi'类别的样本）以及基于嵌入向量的视觉语义搜索——通过`scanner`的`nearest`参数设定查询向量、检索数量与精度控制因子（nprobes、refine_factor），即可返回最相似的图像ID与类别名称，适用于零样本分类或菜谱推荐系统的原型开发。

背景与挑战

背景概述

Food-101数据集由瑞士苏黎世联邦理工学院（ETH Zurich）的Bossard、Guillaumin和Van Gool等人于2014年提出，最初发表在European Conference on Computer Vision（ECCV）上，旨在推动细粒度图像分类领域的研究。该数据集包含101类食物图像，共计101,000张图片，每类约1,000张，覆盖了如苹果派、红烧排骨等西式菜肴，成为食物图像识别领域的基准数据集。其构建初衷是通过挖掘判别性成分（Mining Discriminative Components）来解决食物类别间视觉相似性高、类内差异大的难题，为饮食追踪、营养分析等实际应用提供基础。自发布以来，Food-101极大地促进了计算机视觉在食物领域的研究发展，被广泛应用于图像分类、特征提取等任务，影响力深远。

当前挑战

Food-101数据集所解决的领域问题主要是细粒度图像分类，即区分视觉上高度相似的不同食物类别，例如多种烘焙甜点或汤品，这需要模型捕捉细微的颜色、纹理和形状差异。在构建过程中，研究人员面临图像来源多样化（如不同分辨率、光照和拍摄角度）带来的噪声挑战，以及确保每类图像数量平衡、避免偏见的难题。此外，该数据集的创新之处在于整合了CLIP嵌入与Lance格式，在存储中同时保留原始JPEG字节和预计算的ViT-B-32语义特征，这引入了高维向量索引（如IVF_PQ）的构建效率与查询精度权衡的挑战，以及对大规模多模态数据的跨模态对齐和检索性能优化的需求。

常用场景

经典使用场景

Food-101 Lance格式数据集是细粒度图像分类研究中不可或缺的基准资源，其核心价值在于为食物图像识别提供大规模、高多样性的标注数据。该数据集包含101个食物类别的101,000张照片，每张图像都预计算了OpenCLIP ViT-B-32的余弦归一化嵌入向量，并构建了IVF_PQ索引以支持高效的视觉相似性搜索。研究者可借助其内置的标签过滤器和向量索引，轻松实现按类别查询或基于图像嵌入的最近邻检索，从而快速验证模型在细粒度分类任务上的表现，尤其适合对比不同特征提取器、度量学习策略以及大规模索引方法的优劣。

衍生相关工作

该数据集衍生了多个推动计算机视觉边界的重要工作。Bossard等人基于原始Food-101提出的随机森林判别成分挖掘方法，首次系统性地揭示了食物图像中局部区域（如披萨边缘的焦痕）对分类决策的贡献，直接启发了后续基于注意力机制的细粒度识别模型。在Lance格式版本问世后，结合预计算嵌入的视觉搜索基准测试快速涌现，催生了诸如'基于IVF_PQ的百万级食物图像检索加速'等工程创新成果。此外，该数据集还被纳入多模态对比学习评估框架，用于对比CLIP、BLIP等预训练模型在零样本食物识别上的差异，其标注的101个高混淆度类别已成为衡量模型语义理解鲁棒性的标准测试集，深刻影响了食品计算与可解释性研究的实验设计范式。

数据集最近研究