MLLM-Fabric Dataset

github2025-10-17 更新2025-10-18 收录

下载链接：

https://github.com/limanwang/MLLM-Fabric

下载链接

链接失效反馈

官方服务：

资源简介：

MLLM-Fabric数据集包含220种不同织物的RGB图像、触觉视觉图像和压力数据，用于多模态大语言模型驱动的织物分类和选择任务

The MLLM-Fabric dataset contains RGB images, tactile vision images, and pressure data from 220 distinct fabrics, and is intended for fabric classification and selection tasks driven by multimodal large language models.

创建时间：

2025-10-11

原始信息汇总

MLLM-Fabric 数据集概述

数据集基本信息

数据集名称：MLLM-Fabric
存储位置：https://huggingface.co/datasets/EuniceF/MLLM-Fabric
许可协议：Apache 2.0 License
相关论文：MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection

数据集内容

数据规模：包含220种不同面料的样本
数据类型：多模态数据
- RGB图像
- 视觉触觉图像
- 压力数据

研究背景

研究机构：约克大学机器人辅助生活实验室
研究领域：机器人织物分类与选择
技术框架：基于多模态大语言模型的机器人框架

模型性能

主要模型：Fabric-Llama-90B
性能表现：在属性排序和选择准确率方面显著优于视觉语言基线模型

技术特点

传感方式：集成视觉、触觉和压力传感
训练方法：监督微调和解释引导蒸馏

相关资源

论文地址：https://arxiv.org/abs/2507.04351
演示视频：https://www.youtube.com/watch?v=VeN7tr4-WvM
GitHub仓库：https://github.com/limanwang/MLLM-Fabric

搜集汇总

数据集介绍

构建方式

在机器人织物处理领域，MLLM-Fabric数据集的构建采用了多模态数据采集策略。该数据集涵盖220种不同织物样本，通过同步采集RGB视觉图像、触觉视觉数据以及压力传感信息，形成完整的多模态表征体系。数据采集过程依托专业机器人平台，确保各类传感数据在时空维度上的精确对齐，为后续模型训练提供高质量的多源输入。

特点

该数据集的核心特点在于其丰富的多模态特性与专业领域适用性。数据集不仅包含常规的RGB图像，还整合了高精度的触觉视觉数据和压力传感信息，这种多模态组合能全面捕捉织物的视觉纹理与物理特性。所有样本均经过专业标注，覆盖多种织物属性，为机器人织物识别与分选任务提供了详实的基准数据。

使用方法

研究人员可通过HuggingFace平台直接获取该数据集，支持多种深度学习框架的调用。数据集适用于多模态大语言模型的监督微调与解释引导蒸馏训练，能够有效提升模型在织物属性排序和选择任务中的性能。使用者可依据研究需求，灵活组合视觉、触觉和压力模态数据进行模型训练与验证。

背景与挑战

背景概述

在机器人操作与智能织物交互领域，2025年由英国约克大学机器人辅助生活实验室（RALLA）发布的MLLM-Fabric数据集标志着多模态感知技术的重要进展。该数据集聚焦于织物材料的智能分类与选择任务，整合了视觉、触觉与压力传感数据，涵盖220种不同织物的RGB图像、触觉视觉及压力信息。其核心研究问题在于探索多模态大语言模型在机器人织物操作中的实际应用潜力，通过监督微调与解释引导蒸馏方法，显著提升了织物属性排序与选择准确性，为柔性物体操作研究提供了关键数据支撑。

当前挑战

该数据集致力于解决机器人织物分类与选择中的多模态感知融合挑战，具体包括如何有效协调视觉纹理特征与触觉刚度信息的语义对齐，以及在不同织物材质下保持压力传感数据的稳定性。在构建过程中，研究人员面临多传感器数据同步采集的技术难题，需确保RGB相机、GelSight触觉传感器与压力模块在动态操作环境中的时序一致性；同时，织物样本的物理多样性带来了数据标注复杂性，需通过专家验证建立可靠的属性评估体系。

常用场景

经典使用场景

在机器人触觉感知领域，MLLM-Fabric数据集通过整合视觉与触觉模态数据，为多模态大语言模型提供了丰富的训练基础。该数据集包含220种纺织品的RGB图像、视觉触觉数据及压力传感信息，典型应用于机器人对纺织品属性的智能识别与分类任务，例如根据纹理特征自动区分棉麻丝毛等不同材质。

解决学术问题

该数据集有效解决了多模态融合在机器人操作中的语义对齐难题，通过监督微调与解释引导蒸馏方法，显著提升了模型对纺织品物理属性的理解能力。其在属性排序与选择准确率上的突破，为跨模态表征学习提供了新范式，推动了具身智能在柔性物体操控领域的理论发展。

衍生相关工作

基于该数据集训练的Fabric-Llama-90B模型催生了多模态机器人操作的新研究方向。其构建的视觉-触觉-压力三元感知框架，为后续研究提供了基准系统架构，启发了一系列关于跨模态注意力机制、触觉语义嵌入等创新工作的开展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集