five

james-burton/OrientalMuseum_min5-mat-text

收藏
Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/james-burton/OrientalMuseum_min5-mat-text
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征字段,如obj_num、file、image、root、description、object_name、other_name、label、production.period和production.place。其中label字段是一个分类标签,包含了100个不同的类别,涵盖了从动物木乃伊到各种材料和工艺品的广泛类别。数据集分为train、validation和test三个部分,分别包含7395、1740和1741个样本。数据集的下载大小为1261192796字节,总大小为1308615617.6230001字节。

This dataset contains multiple feature fields, including obj_num, file, image, root, description, object_name, other_name, label, production.period, and production.place. The label field is a classification label that encompasses 100 distinct categories, covering a wide range from animal mummies to various materials and handicrafts. The dataset is divided into three splits: train, validation, and test, which contain 7395, 1740, and 1741 samples respectively. The download size of the dataset is 1261192796 bytes, and the total storage size is 1308615617.6230001 bytes.
提供机构:
james-burton
原始信息汇总

数据集概述

数据集特征

  • obj_num: 字符串类型
  • file: 字符串类型
  • image: 图像类型
  • root: 字符串类型
  • description: 字符串类型
  • object_name: 字符串类型
  • other_name: 字符串类型
  • label: 分类标签类型,包含以下类别:
    • 0: Animal Mummy
    • 1: Batik
    • 2: Colour on Paper
    • 3: Flint/Chert
    • 4: Gouache on Paper
    • 5: Ink and Colour on Paper
    • 6: Ink and Colours on Silk
    • 7: Ink and Opaque Watercolour on Paper
    • 8: Ink on Paper
    • 9: Japanese paper
    • 10: Opaque Watercolour on Paper
    • 11: Opaque Watercolour or Gouache on Mica
    • 12: Pith
    • 13: Pith Paper
    • 14: Plant Product
    • 15: Resin/Plastic
    • 16: Rhinoceros Horn
    • 17: Steatite/Soap Stone
    • 18: Watercolour on Rice Paper
    • 19: agate
    • 20: alabaster
    • 21: aluminum
    • 22: amber
    • 23: bamboo
    • 24: basalt
    • 25: bone
    • 26: brass
    • 27: bronze
    • 28: canvas
    • 29: cardboard
    • 30: cards
    • 31: carnelian
    • 32: ceramic
    • 33: clay
    • 34: copper
    • 35: copper alloy
    • 36: cotton
    • 37: diorite
    • 38: earthenware
    • 39: enamel
    • 40: faience
    • 41: flax
    • 42: flint
    • 43: gauze
    • 44: glass
    • 45: gold
    • 46: granite
    • 47: gray ware
    • 48: hardwood
    • 49: horn
    • 50: ink
    • 51: iron
    • 52: ivory
    • 53: jade
    • 54: jasper
    • 55: lacquer
    • 56: lapis lazuli
    • 57: lead
    • 58: lead alloy
    • 59: leather
    • 60: limestone
    • 61: linen
    • 62: metal
    • 63: mother of pearl
    • 64: nephrite
    • 65: nylon
    • 66: organic material
    • 67: paint
    • 68: paper
    • 69: papyrus
    • 70: photographic paper
    • 71: plaster
    • 72: plastic
    • 73: plate
    • 74: polyester
    • 75: porcelain
    • 76: pottery
    • 77: rattan
    • 78: rice paper
    • 79: sandstone
    • 80: satin
    • 81: schist
    • 82: serpentine
    • 83: shell
    • 84: silk
    • 85: silver
    • 86: slate
    • 87: soapstone
    • 88: steel
    • 89: stone
    • 90: stoneware
    • 91: stucco
    • 92: sycamore
    • 93: terracotta
    • 94: textiles
    • 95: tortoise shell
    • 96: travertine
    • 97: velvet
    • 98: wood
    • 99: wool
  • production.period: 字符串类型
  • production.place: 字符串类型

数据集划分

  • train: 包含7395个样本,大小为890032569.7199836字节
  • validation: 包含1740个样本,大小为192798286.96940786字节
  • test: 包含1741个样本,大小为225784760.93360865字节

数据集大小

  • 下载大小: 1261192796字节
  • 数据集大小: 1308615617.6230001字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以东方博物馆藏品为根基,精心构建了一个多模态文物图像与文本描述库。数据采集自博物馆的数字化档案,涵盖编号(obj_num)、文件路径(file)、图像(image)及藏品来源(root)等基础字段。尤为重要的是,数据集通过专家标注为每件文物赋予了精细的材质标签(label),涵盖从动物木乃伊、蜡染布到犀角、玉石等100种材质类别,并附有详细描述(description)、对象名称(object_name)及别名(other_name),同时记录了生产时期(production.period)与产地(production.place)信息。数据划分为训练集(7395例)、验证集(1740例)和测试集(1741例),总规模逾1.3GB,确保了模型训练的充分性与评估的可靠性。
特点
此数据集最显著的特点在于其材质的极端多样性与细粒度分类能力。100种材质标签覆盖了天然材料(如燧石、象牙、丝绸)、人造物(如塑料、聚酯)及复合材质(如铜合金),堪称一部微型的材料考古学图谱。图像与文本描述的深度耦合,使得每一件文物不仅拥有视觉表征,还承载着历史语境与工艺信息。此外,数据集中包含大量稀有材质(如皂石、蛇纹石、青金石),为长尾分布下的模型鲁棒性提供了天然挑战。这种跨文化、跨时代的材质标注体系,使得模型在识别东方文物时能够同时感知艺术风格与物质属性,为文化遗产数字化保护开辟了新路径。
使用方法
研究者可通过HuggingFace Datasets库直接加载该数据集,指定配置为'default'后自动获取训练、验证与测试分片。在模型应用层面,数据集支持多任务学习范式:可基于图像字段训练材质分类器,利用description字段进行图文检索或图像描述生成,亦可结合production.period与production.place实现时空维度的文物溯源。推荐在加载时启用流式模式以处理大规模图像数据,并利用torchvision或timm库对图像进行标准化预处理。对于材质标签,需注意其作为类别特征(class_label)的整数编码,可借助datasets库的int2str方法映射回原始名称,以提升模型输出的可解释性。
背景与挑战
背景概述
东方博物馆多模态数据集(OrientalMuseum_min5-mat-text)由james-burton及其团队构建,旨在为文化遗产数字化与人工智能交叉领域提供高质量的训练资源。该数据集收录了来自东方博物馆的7395件训练样本、1740个验证样本及1741个测试样本,涵盖从动物木乃伊、蜡染布到犀角、玉器等100种精细材质分类,并附有对象编号、图像、描述、制作时期与地点等结构化信息。其核心研究问题聚焦于如何通过多模态数据(文本描述与视觉图像)自动识别文物材质,以解决传统博物馆藏品管理中依赖专家人工标注的瓶颈。自发布以来,该数据集为计算机视觉、自然语言处理及数字人文领域的学者提供了基准测试平台,推动了少样本学习、跨模态检索等方向在文化遗产保护中的应用,尤其对东亚文物材质分类的标准化研究产生了深远影响。
当前挑战
该数据集所面临的挑战体现在双重维度:首先,在领域问题层面,文物材质识别不同于自然图像分类,需应对材质间视觉相似性(如‘皂石’与‘滑石’的质地接近)、光照与拍摄角度导致的纹理歧义,以及某些材质(如‘纸莎草’、‘生漆’)随时间老化的外观变化,这要求模型具备跨域泛化能力。其次,在构建过程中,团队遭遇了类别不均衡难题——如‘青铜’样本远超‘琥珀’或‘龟甲’,需通过数据增强或重采样策略缓解;同时,文物描述文本存在多语言混杂(如中文名称‘青花瓷’与英文‘porcelain’并存)、历史时期标注模糊(如‘不详’字段占比显著)等噪声,增加了多模态对齐的难度。此外,原始馆藏图像的分辨率差异与背景干扰(如玻璃展柜反光)进一步提升了特征提取的鲁棒性要求。
常用场景
经典使用场景
在文化遗产数字化与智能分析领域,OrientalMuseum_min5-mat-text数据集以其丰富的多模态信息(图像与文本描述)和精细的材质分类体系(涵盖100种材质标签,如丝绸、青铜、象牙等),成为训练与评估跨模态检索、零样本分类及细粒度视觉识别模型的核心基准。研究者常利用该数据集探索如何从文物图像中自动辨识材质属性,结合文本描述进行语义对齐,从而推动博物馆藏品自动化编目与知识图谱构建。其标签体系覆盖有机与无机材质,为研究材质在光照、老化等条件下的视觉不变性表征提供了独特实验平台。
实际应用
在实际应用中,OrientalMuseum_min5-mat-text数据集赋能了博物馆智慧管理系统的核心模块。例如,通过集成训练后的材质识别模型,可快速对海量藏品图像进行自动分类与标签补充,大幅降低编目人力成本。此外,该技术被用于在线展览的智能导览场景,用户上传文物照片即可获取材质、产地及历史背景信息,提升观展互动性。在文物保护领域,模型还能辅助监测材质退化趋势,为预防性保护策略提供数据支撑。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于对比学习的跨模态文物检索模型(如利用图像与文本匹配实现“以图搜文”),以及针对不平衡材质类别设计的少样本学习框架。部分研究将其作为预训练数据,迁移至其他文化遗存材质识别任务(如欧洲油画基底材料分类)。此外,融合该数据集与生成对抗网络的工作,探索了虚拟文物修复中的材质纹理合成,为数字孪生博物馆的构建奠定了算法基础。这些成果已在ACM MM、CVPR等顶会发表,推动了计算文化遗产领域的范式革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作