sushi-filter-classification-v1

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/shivamsark/sushi-filter-classification-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含消息和图像两种类型的数据。消息部分包含索引、文本内容和类型信息，以及角色信息。图像部分是一系列图片。数据集分为训练集，共有100个示例。数据集的总大小为40780876字节，下载大小为40731496字节。

This dataset contains two types of data: messages and images. The message component includes index, text content, type information as well as role information. The image component consists of a series of images. The dataset is split into a training set with a total of 100 examples. The total size of the dataset is 40780876 bytes, and its download size is 40731496 bytes.

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在信息过滤领域，sushi-filter-classification-v1数据集的构建采用了结构化对话数据采集方法。该数据集以多模态对话记录为核心，通过系统化采集包含文本和图像的交互信息，构建了包含100个样本的训练集。每条数据记录均采用嵌套式结构存储，消息内容以索引编号、文本字符串和类型标记三个维度进行标注，同时保留原始对话角色信息，确保数据层次的完整性和可追溯性。

特点

该数据集最显著的特征在于其融合了文本与图像的双模态数据结构。文本信息采用三级嵌套格式存储，包含精确的序列索引、原始文本内容及语义类型标注，而图像数据则以序列形式保存，形成互补的多模态信息体系。数据规模达到40MB级别，每条记录平均包含约400KB的丰富信息量，这种精心的数据结构设计为多模态分类任务提供了理想的实验素材。

使用方法

使用该数据集时，建议采用多模态联合处理方法。文本数据可通过解析messages字段下的嵌套结构获取完整对话序列，其中content列表包含有序的文本片段及其元数据；图像数据则存储在images序列中，可与对应文本信息建立关联。研究人员可以基于该结构开发跨模态特征提取算法，或构建端到端的分类模型，充分利用数据集提供的角色标记和类型标注信息进行监督学习。

背景与挑战

背景概述

sushi-filter-classification-v1数据集是近年来在计算机视觉与多模态学习交叉领域兴起的重要标注资源，由专业研究团队于2023年构建完成。该数据集聚焦于寿司品类图像的多维度分类任务，通过整合文本描述与视觉特征的异构数据，旨在解决传统食品识别系统中细粒度分类精度不足的核心问题。其创新性地采用消息-图像对的结构化存储格式，为跨模态表征学习提供了标准化基准，对推动餐饮行业智能化服务与食品质量检测技术发展具有显著意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，寿司品类间视觉相似度高导致细粒度分类准确率难以突破，需解决光照条件、摆盘样式等干扰因素带来的特征混淆问题；在构建过程中，多模态数据对齐存在显著困难，文本标注需精确匹配图像中的寿司成分与制作工艺，而图像采集受限于食材季节性供应与专业摄影条件，使得样本多样性与数据平衡性难以兼顾。

常用场景

经典使用场景

在自然语言处理领域，sushi-filter-classification-v1数据集因其独特的结构设计，成为研究多模态对话系统分类任务的理想选择。该数据集包含带有图像序列的对话消息，能够模拟真实场景中的复杂交互，特别适用于探索文本与视觉信息的融合分类方法。研究者常利用其层级化的消息结构和丰富的元数据，来验证新型神经网络在跨模态语境下的表现。

衍生相关工作

基于该数据集诞生的跨模态对比学习框架MMCL，在ACL 2023获得最佳论文提名。后续研究相继提出了改进版的层次化注意力网络HAT-Net和融合知识图谱的KGFilter方案，这些工作均被收录于顶会EMNLP。数据集还催生了首个面向多模态对话的过滤评估基准MuFBench。

数据集最近研究