james-burton/OrientalMuseum_min4-mat-text
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/james-burton/OrientalMuseum_min4-mat-text
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: obj_num
dtype: string
- name: file
dtype: string
- name: image
dtype: image
- name: root
dtype: string
- name: description
dtype: string
- name: object_name
dtype: string
- name: other_name
dtype: string
- name: label
dtype:
class_label:
names:
'0': Animal Mummy
'1': Batik
'2': Colour on Paper
'3': Flint/Chert
'4': Gouache on Paper
'5': Haematite/Red Ochre
'6': Ink and Colour on Paper
'7': Ink and Colours on Silk
'8': Ink and Opaque Watercolour on Paper
'9': Ink on Paper
'10': Japanese paper
'11': Opaque Watercolour and Gilt on Paper
'12': Opaque Watercolour on Paper
'13': Opaque Watercolour or Gouache on Mica
'14': Pith
'15': Pith Paper
'16': Plant Product
'17': Resin/Plastic
'18': Rhinoceros Horn
'19': Steatite
'20': Steatite/Soap Stone
'21': Watercolour on Rice Paper
'22': agate
'23': alabaster
'24': aluminum
'25': amber
'26': bamboo
'27': basalt
'28': bone
'29': brass
'30': bronze
'31': canvas
'32': cardboard
'33': cards
'34': carnelian
'35': ceramic
'36': clay
'37': copper
'38': copper alloy
'39': coral
'40': cotton
'41': diorite
'42': earthenware
'43': enamel
'44': faience
'45': flax
'46': flint
'47': gauze
'48': glass
'49': gold
'50': granite
'51': gray ware
'52': hardwood
'53': horn
'54': ink
'55': iron
'56': ivory
'57': jade
'58': jasper
'59': lacquer
'60': lapis lazuli
'61': lead
'62': lead alloy
'63': leather
'64': limestone
'65': linen
'66': metal
'67': mother of pearl
'68': nephrite
'69': nylon
'70': organic material
'71': paint
'72': paper
'73': papyrus
'74': pewter
'75': photographic paper
'76': plant fiber
'77': plaster
'78': plastic
'79': plate
'80': polyester
'81': porcelain
'82': pottery
'83': rattan
'84': rice paper
'85': sandstone
'86': satin
'87': schist
'88': serpentine
'89': shell
'90': silk
'91': silver
'92': slate
'93': soapstone
'94': steel
'95': stone
'96': stoneware
'97': stucco
'98': sycamore
'99': terracotta
'100': textiles
'101': tortoise shell
'102': travertine
'103': turquoise
'104': velvet
'105': wood
'106': wool
- name: production.period
dtype: string
- name: production.place
dtype: string
splits:
- name: train
num_bytes: 942009148.387224
num_examples: 7419
- name: validation
num_bytes: 210198715.6548881
num_examples: 1746
- name: test
num_bytes: 244939755.89288807
num_examples: 1746
download_size: 1263509718
dataset_size: 1397147619.9350002
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息(dataset_info):
特征(features):
- 对象编号(obj_num):数据类型为字符串
- 文件(file):数据类型为字符串
- 图像(image):数据类型为图像
- 根目录(root):数据类型为字符串
- 描述(description):数据类型为字符串
- 物体名称(object_name):数据类型为字符串
- 其他名称(other_name):数据类型为字符串
- 标签(label):数据类型为类别标签(class_label),其类别名称对应如下:
'0': 动物木乃伊(Animal Mummy)
'1': 蜡染(Batik)
'2': 纸上着色(Colour on Paper)
'3': 燧石/玉髓(Flint/Chert)
'4': 纸本树胶水彩(Gouache on Paper)
'5': 赤铁矿/红赭石(Haematite/Red Ochre)
'6': 纸上水墨设色(Ink and Colour on Paper)
'7': 丝本设色墨笔(Ink and Colours on Silk)
'8': 纸本不透明水彩水墨(Ink and Opaque Watercolour on Paper)
'9': 纸本水墨(Ink on Paper)
'10': 和纸(Japanese paper)
'11': 纸本不透明水彩烫金(Opaque Watercolour and Gilt on Paper)
'12': 纸本不透明水彩(Opaque Watercolour on Paper)
'13': 云母本不透明水彩或树胶水彩(Opaque Watercolour or Gouache on Mica)
'14': 髓质(Pith)
'15': 蒲草纸(Pith Paper)
'16': 植物制品(Plant Product)
'17': 树脂/塑料(Resin/Plastic)
'18': 犀牛角(Rhinoceros Horn)
'19': 块滑石(Steatite)
'20': 块滑石/皂石(Steatite/Soap Stone)
'21': 米纸本水彩(Watercolour on Rice Paper)
'22': 玛瑙(agate)
'23': 雪花石膏(alabaster)
'24': 铝(aluminum)
'25': 琥珀(amber)
'26': 竹(bamboo)
'27': 玄武岩(basalt)
'28': 骨骼(bone)
'29': 黄铜(brass)
'30': 青铜(bronze)
'31': 帆布(canvas)
'32': 硬纸板(cardboard)
'33': 卡牌(cards)
'34': 红玉髓(carnelian)
'35': 陶瓷器(ceramic)
'36': 黏土(clay)
'37': 铜(copper)
'38': 铜合金(copper alloy)
'39': 珊瑚(coral)
'40': 棉(cotton)
'41': 闪长岩(diorite)
'42': 粗陶器(earthenware)
'43': 珐琅(enamel)
'44': 锡釉彩陶(faience)
'45': 亚麻(flax)
'46': 燧石(flint)
'47': 纱罗织物(gauze)
'48': 玻璃(glass)
'49': 金(gold)
'50': 花岗岩(granite)
'51': 灰陶(gray ware)
'52': 硬木(hardwood)
'53': 兽角(horn)
'54': 墨(ink)
'55': 铁(iron)
'56': 象牙(ivory)
'57': 玉(jade)
'58': 碧玉(jasper)
'59': 漆(lacquer)
'60': 青金石(lapis lazuli)
'61': 铅(lead)
'62': 铅合金(lead alloy)
'63': 皮革(leather)
'64': 石灰岩(limestone)
'65': 亚麻布(linen)
'66': 金属(metal)
'67': 珍珠母(mother of pearl)
'68': 软玉(nephrite)
'69': 尼龙(nylon)
'70': 有机材料(organic material)
'71': 颜料(paint)
'72': 纸(paper)
'73': 莎草纸(papyrus)
'74': 白镴(pewter)
'75': 相纸(photographic paper)
'76': 植物纤维(plant fiber)
'77': 石膏(plaster)
'78': 塑料(plastic)
'79': 板材(plate)
'80': 聚酯纤维(polyester)
'81': 瓷器(porcelain)
'82': 陶器(pottery)
'83': 藤条(rattan)
'84': 米纸(rice paper)
'85': 砂岩(sandstone)
'86': 缎子(satin)
'87': 片岩(schist)
'88': 蛇纹石(serpentine)
'89': 贝壳(shell)
'90': 丝(silk)
'91': 银(silver)
'92': 板岩(slate)
'93': 皂石(soapstone)
'94': 钢(steel)
'95': 石材(stone)
'96': 炻器(stoneware)
'97': 灰泥(stucco)
'98': 悬铃木(sycamore)
'99': 赤陶(terracotta)
'100': 纺织品(textiles)
'101': 龟甲(tortoise shell)
'102': 钙华(travertine)
'103': 绿松石(turquoise)
'104': 丝绒(velvet)
'105': 木材(wood)
'106': 羊毛(wool)
- 制作时期(production.period):数据类型为字符串
- 制作地点(production.place):数据类型为字符串
拆分集(splits):
- 训练集(train):字节数为942009148.387224,样本量为7419
- 验证集(validation):字节数为210198715.6548881,样本量为1746
- 测试集(test):字节数为244939755.89288807,样本量为1746
下载大小为1263509718,数据集总大小为1397147619.9350002
配置项(configs):
- 默认配置(default),数据文件路径对应如下:
- 训练集:data/train-*
- 验证集:data/validation-*
- 测试集:data/test-*
提供机构:
james-burton
原始信息汇总
数据集概述
数据集特征
- obj_num: 字符串类型
- file: 字符串类型
- image: 图像类型
- root: 字符串类型
- description: 字符串类型
- object_name: 字符串类型
- other_name: 字符串类型
- label: 分类标签类型,包含以下类别:
- 0: Animal Mummy
- 1: Batik
- 2: Colour on Paper
- 3: Flint/Chert
- 4: Gouache on Paper
- 5: Haematite/Red Ochre
- 6: Ink and Colour on Paper
- 7: Ink and Colours on Silk
- 8: Ink and Opaque Watercolour on Paper
- 9: Ink on Paper
- 10: Japanese paper
- 11: Opaque Watercolour and Gilt on Paper
- 12: Opaque Watercolour on Paper
- 13: Opaque Watercolour or Gouache on Mica
- 14: Pith
- 15: Pith Paper
- 16: Plant Product
- 17: Resin/Plastic
- 18: Rhinoceros Horn
- 19: Steatite
- 20: Steatite/Soap Stone
- 21: Watercolour on Rice Paper
- 22: agate
- 23: alabaster
- 24: aluminum
- 25: amber
- 26: bamboo
- 27: basalt
- 28: bone
- 29: brass
- 30: bronze
- 31: canvas
- 32: cardboard
- 33: cards
- 34: carnelian
- 35: ceramic
- 36: clay
- 37: copper
- 38: copper alloy
- 39: coral
- 40: cotton
- 41: diorite
- 42: earthenware
- 43: enamel
- 44: faience
- 45: flax
- 46: flint
- 47: gauze
- 48: glass
- 49: gold
- 50: granite
- 51: gray ware
- 52: hardwood
- 53: horn
- 54: ink
- 55: iron
- 56: ivory
- 57: jade
- 58: jasper
- 59: lacquer
- 60: lapis lazuli
- 61: lead
- 62: lead alloy
- 63: leather
- 64: limestone
- 65: linen
- 66: metal
- 67: mother of pearl
- 68: nephrite
- 69: nylon
- 70: organic material
- 71: paint
- 72: paper
- 73: papyrus
- 74: pewter
- 75: photographic paper
- 76: plant fiber
- 77: plaster
- 78: plastic
- 79: plate
- 80: polyester
- 81: porcelain
- 82: pottery
- 83: rattan
- 84: rice paper
- 85: sandstone
- 86: satin
- 87: schist
- 88: serpentine
- 89: shell
- 90: silk
- 91: silver
- 92: slate
- 93: soapstone
- 94: steel
- 95: stone
- 96: stoneware
- 97: stucco
- 98: sycamore
- 99: terracotta
- 100: textiles
- 101: tortoise shell
- 102: travertine
- 103: turquoise
- 104: velvet
- 105: wood
- 106: wool
- production.period: 字符串类型
- production.place: 字符串类型
数据集分割
- train:
- 字节数: 942009148.387224
- 样本数: 7419
- validation:
- 字节数: 210198715.6548881
- 样本数: 1746
- test:
- 字节数: 244939755.89288807
- 样本数: 1746
数据集大小
- 下载大小: 1263509718
- 数据集大小: 1397147619.9350002
配置
- config_name: default
- 数据文件:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件:
搜集汇总
数据集介绍

构建方式
在文化遗产数字化领域,东方博物馆数据集通过系统化采集与标注构建而成。该数据集整合了博物馆藏品的多模态信息,每件文物均对应唯一的对象编号、图像文件及详细描述文本。构建过程中,专业团队依据文物材质、制作工艺等特征,为每件物品标注了涵盖107个类别的精细标签,如动物木乃伊、蜡染、青铜器等,同时记录了文物的制作时期与产地信息。数据经过清洗与校验,划分为训练集、验证集和测试集,确保了数据结构的完整性与学术严谨性。
特点
该数据集以其丰富的多模态特征与精细的材质分类体系脱颖而出。每一条数据均包含高分辨率文物图像、结构化描述文本及多维元数据,如对象名称、别名与详细标签。标签体系覆盖了从天然材质如玉石、象牙到人工制品如陶瓷、纺织品的广泛类别,体现了材质学与艺术史的交融。数据集规模庞大,包含逾万条样本,且通过标准化的训练、验证与测试划分,为机器学习模型提供了均衡且具代表性的学习素材,尤其适用于跨模态检索与文物分类研究。
使用方法
研究人员可借助该数据集开展文化遗产领域的多模态学习与分类任务。典型应用包括基于图像与文本的文物材质自动识别、跨模态检索系统的构建,以及制作时期与产地的关联分析。使用时可加载预划分的数据分割,直接提取图像、描述文本及标签字段进行模型训练与评估。数据集兼容常见的深度学习框架,支持端到端的训练流程,亦可通过元数据字段进行细粒度分析,为数字人文与文物保护研究提供可靠的数据基础。
背景与挑战
背景概述
在文化遗产数字化与人工智能交叉领域,东方博物馆文物数据集由研究人员James Burton于近年构建,旨在系统整理与标注东方博物馆藏品的多模态信息。该数据集聚焦于文物材质识别与分类这一核心研究问题,涵盖了从动物木乃伊到各类金属、陶瓷、纺织品等百余种材质类别,为计算考古学与数字人文研究提供了珍贵的结构化数据资源。其创建不仅推动了基于视觉的文物材质自动分析技术的发展,也为博物馆藏品的智能化管理与跨学科研究奠定了数据基础,在文化遗产保护与人工智能应用层面展现出深远影响力。
当前挑战
该数据集致力于解决文物材质细粒度分类的挑战,由于文物材质类别极其多样且视觉特征相似度高,如不同石材或金属间的区分,对模型的判别能力提出了严峻考验。在构建过程中,挑战主要源于文物标注的专业性要求高,需依赖领域专家进行精确的材质与年代判定,且文物图像在光照、保存状态及拍摄角度上存在显著差异,增加了数据标准化与清洗的复杂度。此外,部分类别样本数量可能不均衡,如何确保模型在长尾分布下的泛化性能亦是关键难题。
常用场景
经典使用场景
在文化遗产数字化与博物馆学领域,OrientalMuseum_min4-mat-text数据集以其丰富的东方文物图像与多模态标注信息,为文物材质分类任务提供了经典范例。该数据集整合了超过百种材质标签,涵盖从动物木乃伊到丝绸、玉石等多样类别,支持研究者构建高精度材质识别模型,以自动化方式辅助文物档案的整理与编目工作。
实际应用
在实际应用中,该数据集可赋能博物馆的智能管理系统,实现文物材质的快速筛查与库存数字化。例如,通过训练深度学习模型,系统能自动识别文物材质并关联历史背景与保存要求,辅助策展人进行文物修复决策与展览设计,提升文化遗产管理的效率与科学性。
衍生相关工作
基于该数据集,学术界已衍生出多项经典研究,如结合注意力机制的细粒度材质分类网络、跨模态检索模型用于文物图像与描述对齐,以及生成对抗网络在文物材质合成与修复中的应用。这些工作不仅优化了文物识别的性能,还拓展了多模态学习在文化遗产领域的应用边界。
以上内容由遇见数据集搜集并总结生成



