james-burton/OrientalMuseum_min6-white-mat
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/james-burton/OrientalMuseum_min6-white-mat
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: obj_num
dtype: string
- name: file
dtype: string
- name: image
dtype: image
- name: root
dtype: string
- name: description
dtype: string
- name: object_name
dtype: string
- name: other_name
dtype: string
- name: label
dtype:
class_label:
names:
'0': Animal Mummy
'1': Batik
'2': Buffalo Horn
'3': Chinese Red Rosewood
'4': Colour on Paper
'5': Flint/Chert
'6': Gouache on Paper
'7': Haematite/Red Ochre
'8': Human Bone
'9': Ink and Colour on Paper
'10': Ink and Colours on Silk
'11': Ink and Opaque Watercolour on Paper
'12': Ink on Paper
'13': Jade (Calcified)
'14': Japanese paper
'15': Microcline/Green Feldspar/Amazon-Stone
'16': Nile Mud
'17': Opaque Watercolour on Paper
'18': Opaque Watercolour or Gouache on Mica
'19': Pith
'20': Pith Paper
'21': Plant Product
'22': Resin/Plastic
'23': Rhinoceros Horn
'24': Smaragdite
'25': Steatite
'26': Steatite/Soap Stone
'27': Watercolour on Rice Paper
'28': acrylic
'29': agate
'30': alabaster
'31': aluminum
'32': amber
'33': amethyst
'34': antler
'35': artificial stone
'36': bamboo
'37': basalt
'38': bone
'39': bowenite
'40': boxwood
'41': brass
'42': brocade
'43': bronze
'44': burnt jade
'45': canvas
'46': cardboard
'47': cards
'48': carnelian
'49': cast iron
'50': celadon
'51': cellulose acetate
'52': ceramic
'53': chalcedony
'54': cherry
'55': clay
'56': coconut
'57': copper
'58': copper alloy
'59': coral
'60': cotton
'61': crystal
'62': diorite
'63': earthenware
'64': ebony
'65': emerald
'66': enamel
'67': faience
'68': flax
'69': flint
'70': gauze
'71': glass
'72': gold
'73': granite
'74': gray ware
'75': hardwood
'76': horn
'77': incense
'78': ink
'79': iron
'80': ivory
'81': jade
'82': jadeite
'83': jasper
'84': lacquer
'85': lapis lazuli
'86': lead
'87': lead alloy
'88': leather
'89': limestone
'90': linen
'91': malachite
'92': marble
'93': metal
'94': mineral
'95': mother of pearl
'96': nephrite
'97': nylon
'98': obsidian
'99': organic material
'100': paint
'101': palm fiber
'102': palm leaf
'103': paper
'104': papier mâché
'105': papyrus
'106': pewter
'107': photographic paper
'108': pine
'109': plant fiber
'110': plaster
'111': plastic
'112': plate
'113': polyester
'114': polystyrene
'115': porcelain
'116': pottery
'117': quartzite
'118': rattan
'119': realgar
'120': reed
'121': rice paper
'122': rock
'123': rush
'124': sandstone
'125': satin
'126': schist
'127': seashell
'128': serpentine
'129': shell
'130': silk
'131': silver
'132': slate
'133': soapstone
'134': softwood
'135': steel
'136': stone
'137': stoneware
'138': stucco
'139': sycamore
'140': synthetic fiber
'141': teak
'142': terracotta
'143': textiles
'144': tin
'145': tortoise shell
'146': travertine
'147': tremolite
'148': turquoise
'149': velvet
'150': wood
'151': wool
'152': wrought iron
'153': zinc alloy
- name: production.period
dtype: string
- name: production.place
dtype: string
- name: new_root
dtype: string
splits:
- name: train
num_bytes: 681415250.562
num_examples: 23014
- name: validation
num_bytes: 148687011.448
num_examples: 5416
- name: test
num_bytes: 187104955.216
num_examples: 5416
download_size: 949262639
dataset_size: 1017207217.226
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 名称:物体数量(obj_num),数据类型:字符串
- 名称:文件路径(file),数据类型:字符串
- 名称:图像(image),数据类型:图像
- 名称:根路径(root),数据类型:字符串
- 名称:描述信息(description),数据类型:字符串
- 名称:物体名称(object_name),数据类型:字符串
- 名称:别名(other_name),数据类型:字符串
- 名称:标签(label),数据类型:
分类标签:
类别名称:
'0': 动物木乃伊(Animal Mummy)
'1': 蜡染(Batik)
'2': 水牛角(Buffalo Horn)
'3': 中国红木(Chinese Red Rosewood)
'4': 纸本设色(Colour on Paper)
'5': 燧石/燧玉(Flint/Chert)
'6': 纸本水粉画(Gouache on Paper)
'7': 赤铁矿/红赭石(Haematite/Red Ochre)
'8': 人骨(Human Bone)
'9': 纸本水墨设色(Ink and Colour on Paper)
'10': 丝本水墨设色(Ink and Colours on Silk)
'11': 纸本水墨不透明水彩(Ink and Opaque Watercolour on Paper)
'12': 纸本水墨(Ink on Paper)
'13': 钙化玉(Jade (Calcified))
'14': 和纸(Japanese paper)
'15': 微斜长石/绿长石/亚马逊石(Microcline/Green Feldspar/Amazon-Stone)
'16': 尼罗河淤泥(Nile Mud)
'17': 纸本不透明水彩(Opaque Watercolour on Paper)
'18': 云母基底不透明水彩或水粉画(Opaque Watercolour or Gouache on Mica)
'19': 髓质(Pith)
'20': 髓纸(Pith Paper)
'21': 植物制品(Plant Product)
'22': 树脂/塑料(Resin/Plastic)
'23': 犀牛角(Rhinoceros Horn)
'24': 蓝闪石(Smaragdite)
'25': 块滑石(Steatite)
'26': 块滑石/皂石(Steatite/Soap Stone)
'27': 宣纸本水彩画(Watercolour on Rice Paper)
'28': 丙烯酸颜料(acrylic)
'29': 玛瑙(agate)
'30': 雪花石膏(alabaster)
'31': 铝(aluminum)
'32': 琥珀(amber)
'33': 紫水晶(amethyst)
'34': 鹿角(antler)
'35': 人造石材(artificial stone)
'36': 竹(bamboo)
'37': 玄武岩(basalt)
'38': 骨骼(bone)
'39': 鲍文玉(bowenite)
'40': 黄杨木(boxwood)
'41': 黄铜(brass)
'42': 织锦(brocade)
'43': 青铜(bronze)
'44': 烧玉(burnt jade)
'45': 帆布(canvas)
'46': 硬纸板(cardboard)
'47': 卡片(cards)
'48': 肉红玉髓(carnelian)
'49': 铸铁(cast iron)
'50': 青瓷(celadon)
'51': 醋酸纤维素(cellulose acetate)
'52': 陶瓷(ceramic)
'53': 玉髓(chalcedony)
'54': 樱桃木(cherry)
'55': 黏土(clay)
'56': 椰子(coconut)
'57': 铜(copper)
'58': 铜合金(copper alloy)
'59': 珊瑚(coral)
'60': 棉(cotton)
'61': 水晶(crystal)
'62': 闪长岩(diorite)
'63': 粗陶器(earthenware)
'64': 乌木(ebony)
'65': 祖母绿(emerald)
'66': 珐琅(enamel)
'67': 彩陶(faience)
'68': 亚麻(flax)
'69': 燧石(flint)
'70': 纱罗(gauze)
'71': 玻璃(glass)
'72': 金(gold)
'73': 花岗岩(granite)
'74': 灰陶(gray ware)
'75': 硬木(hardwood)
'76': 角质材料(horn)
'77': 香(incense)
'78': 墨(ink)
'79': 铁(iron)
'80': 象牙(ivory)
'81': 玉(jade)
'82': 硬玉(jadeite)
'83': 碧玉(jasper)
'84': 漆(lacquer)
'85': 青金石(lapis lazuli)
'86': 铅(lead)
'87': 铅合金(lead alloy)
'88': 皮革(leather)
'89': 石灰岩(limestone)
'90': 亚麻布(linen)
'91': 孔雀石(malachite)
'92': 大理石(marble)
'93': 金属(metal)
'94': 矿物(mineral)
'95': 珍珠母(mother of pearl)
'96': 软玉(nephrite)
'97': 尼龙(nylon)
'98': 黑曜石(obsidian)
'99': 有机材料(organic material)
'100': 涂料(paint)
'101': 棕榈纤维(palm fiber)
'102': 棕榈叶(palm leaf)
'103': 纸(paper)
'104': 纸浆模塑(papier mâché)
'105': 纸莎草纸(papyrus)
'106': 锡镴(pewter)
'107': 相纸(photographic paper)
'108': 松木(pine)
'109': 植物纤维(plant fiber)
'110': 石膏(plaster)
'111': 塑料(plastic)
'112': 板材(plate)
'113': 聚酯纤维(polyester)
'114': 聚苯乙烯(polystyrene)
'115': 瓷器(porcelain)
'116': 陶器(pottery)
'117': 石英岩(quartzite)
'118': 藤条(rattan)
'119': 雄黄(realgar)
'120': 芦苇(reed)
'121': 宣纸(rice paper)
'122': 岩石(rock)
'123': 灯心草(rush)
'124': 砂岩(sandstone)
'125': 缎子(satin)
'126': 片岩(schist)
'127': 海贝壳(seashell)
'128': 蛇纹石(serpentine)
'129': 贝壳(shell)
'130': 丝绸(silk)
'131': 银(silver)
'132': 板岩(slate)
'133': 皂石(soapstone)
'134': 软木(softwood)
'135': 钢(steel)
'136': 石材(stone)
'137': 炻器(stoneware)
'138': 灰泥(stucco)
'139': 悬铃木(sycamore)
'140': 合成纤维(synthetic fiber)
'141': 柚木(teak)
'142': 赤陶(terracotta)
'143': 纺织品(textiles)
'144': 锡(tin)
'145': 龟甲(tortoise shell)
'146': 石灰华(travertine)
'147': 透闪石(tremolite)
'148': 绿松石(turquoise)
'149': 丝绒(velvet)
'150': 木材(wood)
'151': 羊毛(wool)
'152': 熟铁(wrought iron)
'153': 锌合金(zinc alloy)
- 名称:生产时期(production.period),数据类型:字符串
- 名称:生产地点(production.place),数据类型:字符串
- 名称:新根路径(new_root),数据类型:字符串
数据集拆分:
- 拆分名称:train,字节数:681415250.562,样本数:23014
- 拆分名称:validation,字节数:148687011.448,样本数:5416
- 拆分名称:test,字节数:187104955.216,样本数:5416
下载大小:949262639 字节
数据集总大小:1017207217.226 字节
配置项:
- 配置名称:default,数据文件:
- 拆分train:路径为data/train-*
- 拆分validation:路径为data/validation-*
- 拆分test:路径为data/test-*
提供机构:
james-burton
原始信息汇总
数据集概述
数据集特征
- obj_num: 字符串类型
- file: 字符串类型
- image: 图像类型
- root: 字符串类型
- description: 字符串类型
- object_name: 字符串类型
- other_name: 字符串类型
- label: 包含多个类别标签的字典类型
- 类别标签名称:
- 0: Animal Mummy
- 1: Batik
- 2: Buffalo Horn
- 3: Chinese Red Rosewood
- 4: Colour on Paper
- 5: Flint/Chert
- 6: Gouache on Paper
- 7: Haematite/Red Ochre
- 8: Human Bone
- 9: Ink and Colour on Paper
- 10: Ink and Colours on Silk
- 11: Ink and Opaque Watercolour on Paper
- 12: Ink on Paper
- 13: Jade (Calcified)
- 14: Japanese paper
- 15: Microcline/Green Feldspar/Amazon-Stone
- 16: Nile Mud
- 17: Opaque Watercolour on Paper
- 18: Opaque Watercolour or Gouache on Mica
- 19: Pith
- 20: Pith Paper
- 21: Plant Product
- 22: Resin/Plastic
- 23: Rhinoceros Horn
- 24: Smaragdite
- 25: Steatite
- 26: Steatite/Soap Stone
- 27: Watercolour on Rice Paper
- 28: acrylic
- 29: agate
- 30: alabaster
- 31: aluminum
- 32: amber
- 33: amethyst
- 34: antler
- 35: artificial stone
- 36: bamboo
- 37: basalt
- 38: bone
- 39: bowenite
- 40: boxwood
- 41: brass
- 42: brocade
- 43: bronze
- 44: burnt jade
- 45: canvas
- 46: cardboard
- 47: cards
- 48: carnelian
- 49: cast iron
- 50: celadon
- 51: cellulose acetate
- 52: ceramic
- 53: chalcedony
- 54: cherry
- 55: clay
- 56: coconut
- 57: copper
- 58: copper alloy
- 59: coral
- 60: cotton
- 61: crystal
- 62: diorite
- 63: earthenware
- 64: ebony
- 65: emerald
- 66: enamel
- 67: faience
- 68: flax
- 69: flint
- 70: gauze
- 71: glass
- 72: gold
- 73: granite
- 74: gray ware
- 75: hardwood
- 76: horn
- 77: incense
- 78: ink
- 79: iron
- 80: ivory
- 81: jade
- 82: jadeite
- 83: jasper
- 84: lacquer
- 85: lapis lazuli
- 86: lead
- 87: lead alloy
- 88: leather
- 89: limestone
- 90: linen
- 91: malachite
- 92: marble
- 93: metal
- 94: mineral
- 95: mother of pearl
- 96: nephrite
- 97: nylon
- 98: obsidian
- 99: organic material
- 100: paint
- 101: palm fiber
- 102: palm leaf
- 103: paper
- 104: papier mâché
- 105: papyrus
- 106: pewter
- 107: photographic paper
- 108: pine
- 109: plant fiber
- 110: plaster
- 111: plastic
- 112: plate
- 113: polyester
- 114: polystyrene
- 115: porcelain
- 116: pottery
- 117: quartzite
- 118: rattan
- 119: realgar
- 120: reed
- 121: rice paper
- 122: rock
- 123: rush
- 124: sandstone
- 125: satin
- 126: schist
- 127: seashell
- 128: serpentine
- 129: shell
- 130: silk
- 131: silver
- 132: slate
- 133: soapstone
- 134: softwood
- 135: steel
- 136: stone
- 137: stoneware
- 138: stucco
- 139: sycamore
- 140: synthetic fiber
- 141: teak
- 142: terracotta
- 143: textiles
- 144: tin
- 145: tortoise shell
- 146: travertine
- 147: tremolite
- 148: turquoise
- 149: velvet
- 150: wood
- 151: wool
- 152: wrought iron
- 153: zinc alloy
- 类别标签名称:
- production.period: 字符串类型
- production.place: 字符串类型
- new_root: 字符串类型
数据集划分
- train: 包含23014个样本,大小为681415250.562字节
- validation: 包含5416个样本,大小为148687011.448字节
- test: 包含5416个样本,大小为187104955.216字节
数据集大小
- 下载大小: 949262639字节
- 数据集总大小: 1017207217.226字节
配置
- 配置名称: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在文化遗产数字化保护的背景下,OrientalMuseum_min6-white-mat数据集通过系统采集东方博物馆藏品的多模态信息构建而成。该数据集整合了每件藏品的编号、图像文件、描述文本、材质标签以及制作时期与地点等元数据,形成了结构化的数据记录。构建过程中,研究人员对原始藏品信息进行了标准化处理与清洗,确保数据的一致性与可靠性,并依据材质类别生成了精细的标签体系,最终划分为训练集、验证集和测试集,为后续计算分析奠定了坚实基础。
特点
该数据集的核心特点在于其涵盖的材质类别极为丰富,标签体系包含从动物木乃伊、蜡染到玉石、金属、陶瓷等154种具体材质,细致反映了东方文物的物质多样性。数据集提供了图像与文本描述的对齐信息,支持多模态学习任务。其数据规模较为可观,包含超过三万条样本,且已预先划分了标准的机器学习数据集分割,便于模型训练与评估,为文化遗产的自动分类、材质识别与跨模态检索等研究提供了高质量资源。
使用方法
在文化遗产信息学与计算机视觉交叉领域,本数据集主要用于监督学习任务。研究者可加载数据集中预定义的分割,利用图像特征与对应的材质标签训练分类模型,实现文物材质的自动识别。同时,结合文本描述字段,可开展跨模态检索或图文匹配模型的探索。数据集中包含的制作时期与地点信息,也为文物时空属性分析等更细粒度的研究提供了可能,使用者需根据具体任务选择相应的特征字段进行建模与实验。
背景与挑战
背景概述
在文化遗产数字化与人工智能交叉研究领域,东方博物馆文物数据集由研究者James Burton于近年构建,旨在系统整理与标注博物馆藏品的多模态信息。该数据集聚焦于文物材质识别与分类这一核心研究问题,涵盖了从动物木乃伊到各类矿石、织物等超过150种精细材质类别,为计算考古学与文物鉴定提供了结构化数据基础。通过整合图像、描述文本及元数据,该资源显著推动了机器学习在文化遗产保护、数字人文及跨学科研究中的应用,促进了自动化文物分析技术的发展。
当前挑战
该数据集致力于解决文物材质自动分类与识别中的复杂挑战,其核心在于应对材质类别的极端多样性、类间相似性高以及样本分布不均衡等问题,这对模型的细粒度判别能力提出了严峻考验。在构建过程中,挑战主要源于文物标注的专业性要求极高,需依赖领域专家进行精确的材质鉴定;同时,数据采集涉及文物图像的标准化处理、历史信息的规范化整合,以及跨模态数据(如图像与文本描述)的对齐与清洗,这些步骤均需耗费大量人力物力以确保数据的准确性与一致性。
常用场景
经典使用场景
在文化遗产数字化与计算机视觉交叉领域,OrientalMuseum_min6-white-mat数据集为博物馆藏品的多模态识别与分析提供了经典范例。该数据集整合了东方博物馆藏品的图像、材质标签及元数据,涵盖从动物木乃伊到各类矿物、织物等153种材质类别,为深度学习模型在复杂材质分类任务上的训练与评估奠定了坚实基础。其典型应用场景包括基于卷积神经网络的材质识别系统开发,通过端到端学习从图像中提取视觉特征,实现对藏品材质的自动化精细分类,助力博物馆数字化管理流程的智能化转型。
衍生相关工作
围绕该数据集衍生的经典研究工作主要集中在多模态融合与跨文化分析领域。学者们利用其丰富的元数据字段,开发了结合图像与文本描述的联合嵌入模型,实现了材质属性与历史背景的关联推理。此外,该数据集激发了跨博物馆材质比对研究,通过迁移学习将模型应用于其他文化遗产机构,促进了全球藏品数据库的互联互通。相关成果发表于文化遗产计算、视觉识别顶级会议,推动了智能技术在人文领域的深度融合与范式革新。
数据集最近研究
最新研究方向
在文化遗产数字化领域,OrientalMuseum_min6-white-mat数据集以其丰富的东方博物馆藏品图像与多模态标注,为文物材质识别与分类研究提供了关键支撑。当前前沿探索聚焦于利用深度学习模型,特别是视觉Transformer架构,对玉器、陶瓷、纺织品等复杂材质进行细粒度识别,以提升文物数字化保护的精确性。关联热点事件包括全球博物馆加速推进AI辅助文物修复与虚拟展示,该数据集通过标注生产时期与地点信息,助力跨地域文化风格分析,推动智能考古学的发展。其影响在于为多模态文化遗产分析建立了标准化基准,促进数字人文与计算机视觉的交叉融合,对文物保存与学术研究具有深远意义。
以上内容由遇见数据集搜集并总结生成



