five

james-burton/OrientalMuseum_min6-mat

收藏
Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/james-burton/OrientalMuseum_min6-mat
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: obj_num dtype: string - name: file dtype: string - name: image dtype: image - name: root dtype: string - name: description dtype: string - name: object_name dtype: string - name: other_name dtype: string - name: label dtype: class_label: names: '0': Animal Mummy '1': Batik '2': Buffalo Horn '3': Chinese Red Rosewood '4': Colour on Paper '5': Flint/Chert '6': Gouache on Paper '7': Haematite/Red Ochre '8': Human Bone '9': Ink and Colour on Paper '10': Ink and Colours on Silk '11': Ink and Opaque Watercolour on Paper '12': Ink on Paper '13': Jade (Calcified) '14': Japanese paper '15': Microcline/Green Feldspar/Amazon-Stone '16': Nile Mud '17': Opaque Watercolour on Paper '18': Opaque Watercolour or Gouache on Mica '19': Pith '20': Pith Paper '21': Plant Product '22': Resin/Plastic '23': Rhinoceros Horn '24': Smaragdite '25': Steatite '26': Steatite/Soap Stone '27': Watercolour on Rice Paper '28': acrylic '29': agate '30': alabaster '31': aluminum '32': amber '33': amethyst '34': antler '35': artificial stone '36': bamboo '37': basalt '38': bone '39': bowenite '40': boxwood '41': brass '42': brocade '43': bronze '44': burnt jade '45': canvas '46': cardboard '47': cards '48': carnelian '49': cast iron '50': celadon '51': cellulose acetate '52': ceramic '53': chalcedony '54': cherry '55': clay '56': coconut '57': copper '58': copper alloy '59': coral '60': cotton '61': crystal '62': diorite '63': earthenware '64': ebony '65': emerald '66': enamel '67': faience '68': flax '69': flint '70': gauze '71': glass '72': gold '73': granite '74': gray ware '75': hardwood '76': horn '77': incense '78': ink '79': iron '80': ivory '81': jade '82': jadeite '83': jasper '84': lacquer '85': lapis lazuli '86': lead '87': lead alloy '88': leather '89': limestone '90': linen '91': malachite '92': marble '93': metal '94': mineral '95': mother of pearl '96': nephrite '97': nylon '98': obsidian '99': organic material '100': paint '101': palm fiber '102': palm leaf '103': paper '104': papier mâché '105': papyrus '106': pewter '107': photographic paper '108': pine '109': plant fiber '110': plaster '111': plastic '112': plate '113': polyester '114': polystyrene '115': porcelain '116': pottery '117': quartzite '118': rattan '119': realgar '120': reed '121': rice paper '122': rock '123': rush '124': sandstone '125': satin '126': schist '127': seashell '128': serpentine '129': shell '130': silk '131': silver '132': slate '133': soapstone '134': softwood '135': steel '136': stone '137': stoneware '138': stucco '139': sycamore '140': synthetic fiber '141': teak '142': terracotta '143': textiles '144': tin '145': tortoise shell '146': travertine '147': tremolite '148': turquoise '149': velvet '150': wood '151': wool '152': wrought iron '153': zinc alloy - name: production.period dtype: string - name: production.place dtype: string splits: - name: train num_bytes: 2676998745.666481 num_examples: 23014 - name: validation num_bytes: 614570353.2627596 num_examples: 5416 - name: test num_bytes: 676282737.7907596 num_examples: 5416 download_size: 3907725974 dataset_size: 3967851836.7200003 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息: 特征: - 名称:目标数量(obj_num),数据类型:字符串 - 名称:文件路径(file),数据类型:字符串 - 名称:图像(image),数据类型:图像 - 名称:根目录(root),数据类型:字符串 - 名称:描述信息(description),数据类型:字符串 - 名称:物体名称(object_name),数据类型:字符串 - 名称:其他名称(other_name),数据类型:字符串 - 名称:标签(label),数据类型:分类标签,类别名称如下: '0': 动物木乃伊(Animal Mummy) '1': 蜡染(Batik) '2': 水牛角(Buffalo Horn) '3': 中国红玫瑰木(Chinese Red Rosewood) '4': 纸本设色(Colour on Paper) '5': 燧石/燧石灰岩(Flint/Chert) '6': 纸本蛋彩画(Gouache on Paper) '7': 赤铁矿/红赭石(Haematite/Red Ochre) '8': 人类骨骼(Human Bone) '9': 纸本水墨设色(Ink and Colour on Paper) '10': 丝本水墨设色(Ink and Colours on Silk) '11': 纸本水墨不透明水彩(Ink and Opaque Watercolour on Paper) '12': 纸本水墨(Ink on Paper) '13': 钙化玉(Jade (Calcified)) '14': 和纸(Japanese paper) '15': 微斜长石/绿长石/亚马逊石(Microcline/Green Feldspar/Amazon-Stone) '16': 尼罗河淤泥(Nile Mud) '17': 纸本不透明水彩(Opaque Watercolour on Paper) '18': 云母本不透明水彩或蛋彩画(Opaque Watercolour or Gouache on Mica) '19': 髓质(Pith) '20': 髓纸(Pith Paper) '21': 植物制品(Plant Product) '22': 树脂/塑料(Resin/Plastic) '23': 犀牛角(Rhinoceros Horn) '24': 绿闪石(Smaragdite) '25': 块滑石(Steatite) '26': 块滑石/皂石(Steatite/Soap Stone) '27': 宣纸本水彩(Watercolour on Rice Paper) '28': 丙烯酸颜料(acrylic) '29': 玛瑙(agate) '30': 雪花石膏(alabaster) '31': 铝(aluminum) '32': 琥珀(amber) '33': 紫水晶(amethyst) '34': 鹿角(antler) '35': 人造石材(artificial stone) '36': 竹子(bamboo) '37': 玄武岩(basalt) '38': 骨骼(bone) '39': 鲍文玉(bowenite) '40': 黄杨木(boxwood) '41': 黄铜(brass) '42': 织锦(brocade) '43': 青铜(bronze) '44': 烧玉(burnt jade) '45': 帆布(canvas) '46': 硬纸板(cardboard) '47': 卡片(cards) '48': 肉红玉髓(carnelian) '49': 铸铁(cast iron) '50': 青瓷(celadon) '51': 醋酸纤维素(cellulose acetate) '52': 陶瓷(ceramic) '53': 玉髓(chalcedony) '54': 樱桃木(cherry) '55': 黏土(clay) '56': 椰子(coconut) '57': 铜(copper) '58': 铜合金(copper alloy) '59': 珊瑚(coral) '60': 棉(cotton) '61': 晶体(crystal) '62': 闪长岩(diorite) '63': 粗陶器(earthenware) '64': 乌木(ebony) '65': 祖母绿(emerald) '66': 珐琅(enamel) '67': 彩陶(faience) '68': 亚麻(flax) '69': 燧石(flint) '70': 纱罗织物(gauze) '71': 玻璃(glass) '72': 金(gold) '73': 花岗岩(granite) '74': 灰陶(gray ware) '75': 硬木(hardwood) '76': 角质材料(horn) '77': 香(incense) '78': 墨水(ink) '79': 铁(iron) '80': 象牙(ivory) '81': 玉(jade) '82': 硬玉(jadeite) '83': 碧玉(jasper) '84': 漆(lacquer) '85': 青金石(lapis lazuli) '86': 铅(lead) '87': 铅合金(lead alloy) '88': 皮革(leather) '89': 石灰岩(limestone) '90': 亚麻布(linen) '91': 孔雀石(malachite) '92': 大理石(marble) '93': 金属(metal) '94': 矿物(mineral) '95': 珍珠母(mother of pearl) '96': 软玉(nephrite) '97': 尼龙(nylon) '98': 黑曜石(obsidian) '99': 有机材料(organic material) '100': 颜料(paint) '101': 棕榈纤维(palm fiber) '102': 棕榈叶(palm leaf) '103': 纸张(paper) '104': 纸浆模塑(papier mâché) '105': 纸莎草纸(papyrus) '106': 锡铅合金(pewter) '107': 相纸(photographic paper) '108': 松木(pine) '109': 植物纤维(plant fiber) '110': 石膏(plaster) '111': 塑料(plastic) '112': 板材(plate) '113': 聚酯纤维(polyester) '114': 聚苯乙烯(polystyrene) '115': 瓷器(porcelain) '116': 陶器(pottery) '117': 石英岩(quartzite) '118': 藤条(rattan) '119': 雄黄(realgar) '120': 芦苇(reed) '121': 宣纸(rice paper) '122': 岩石(rock) '123': 灯心草(rush) '124': 砂岩(sandstone) '125': 缎子(satin) '126': 片岩(schist) '127': 海贝壳(seashell) '128': 蛇纹石(serpentine) '129': 贝壳(shell) '130': 丝绸(silk) '131': 银(silver) '132': 板岩(slate) '133': 皂石(soapstone) '134': 软木(softwood) '135': 钢(steel) '136': 石材(stone) '137': 炻器(stoneware) '138': 灰泥(stucco) '139': 无花果木(sycamore) '140': 合成纤维(synthetic fiber) '141': 柚木(teak) '142': 赤陶(terracotta) '143': 纺织品(textiles) '144': 锡(tin) '145': 龟甲(tortoise shell) '146': 钙华(travertine) '147': 透闪石(tremolite) '148': 绿松石(turquoise) '149': 丝绒(velvet) '150': 木材(wood) '151': 羊毛(wool) '152': 熟铁(wrought iron) '153': 锌合金(zinc alloy) - 名称:生产时期(production.period),数据类型:字符串 - 名称:生产地点(production.place),数据类型:字符串 数据集分割: - 名称:训练集(train),数据字节数:2676998745.666481,样本数量:23014 - 名称:验证集(validation),数据字节数:614570353.2627596,样本数量:5416 - 名称:测试集(test),数据字节数:676282737.7907596,样本数量:5416 下载总大小:3907725974,数据集总大小:3967851836.7200003 配置信息: - 配置名称:默认(default),数据文件: - 训练集对应路径:data/train-* - 验证集对应路径:data/validation-* - 测试集对应路径:data/test-*
提供机构:
james-burton
原始信息汇总

数据集概述

特征信息

数据集包含以下特征:

  • obj_num: 字符串类型
  • file: 字符串类型
  • image: 图像类型
  • root: 字符串类型
  • description: 字符串类型
  • object_name: 字符串类型
  • other_name: 字符串类型
  • label: 类别标签类型,包含以下类别:
    • 0: Animal Mummy
    • 1: Batik
    • 2: Buffalo Horn
    • 3: Chinese Red Rosewood
    • 4: Colour on Paper
    • 5: Flint/Chert
    • 6: Gouache on Paper
    • 7: Haematite/Red Ochre
    • 8: Human Bone
    • 9: Ink and Colour on Paper
    • 10: Ink and Colours on Silk
    • 11: Ink and Opaque Watercolour on Paper
    • 12: Ink on Paper
    • 13: Jade (Calcified)
    • 14: Japanese paper
    • 15: Microcline/Green Feldspar/Amazon-Stone
    • 16: Nile Mud
    • 17: Opaque Watercolour on Paper
    • 18: Opaque Watercolour or Gouache on Mica
    • 19: Pith
    • 20: Pith Paper
    • 21: Plant Product
    • 22: Resin/Plastic
    • 23: Rhinoceros Horn
    • 24: Smaragdite
    • 25: Steatite
    • 26: Steatite/Soap Stone
    • 27: Watercolour on Rice Paper
    • 28: acrylic
    • 29: agate
    • 30: alabaster
    • 31: aluminum
    • 32: amber
    • 33: amethyst
    • 34: antler
    • 35: artificial stone
    • 36: bamboo
    • 37: basalt
    • 38: bone
    • 39: bowenite
    • 40: boxwood
    • 41: brass
    • 42: brocade
    • 43: bronze
    • 44: burnt jade
    • 45: canvas
    • 46: cardboard
    • 47: cards
    • 48: carnelian
    • 49: cast iron
    • 50: celadon
    • 51: cellulose acetate
    • 52: ceramic
    • 53: chalcedony
    • 54: cherry
    • 55: clay
    • 56: coconut
    • 57: copper
    • 58: copper alloy
    • 59: coral
    • 60: cotton
    • 61: crystal
    • 62: diorite
    • 63: earthenware
    • 64: ebony
    • 65: emerald
    • 66: enamel
    • 67: faience
    • 68: flax
    • 69: flint
    • 70: gauze
    • 71: glass
    • 72: gold
    • 73: granite
    • 74: gray ware
    • 75: hardwood
    • 76: horn
    • 77: incense
    • 78: ink
    • 79: iron
    • 80: ivory
    • 81: jade
    • 82: jadeite
    • 83: jasper
    • 84: lacquer
    • 85: lapis lazuli
    • 86: lead
    • 87: lead alloy
    • 88: leather
    • 89: limestone
    • 90: linen
    • 91: malachite
    • 92: marble
    • 93: metal
    • 94: mineral
    • 95: mother of pearl
    • 96: nephrite
    • 97: nylon
    • 98: obsidian
    • 99: organic material
    • 100: paint
    • 101: palm fiber
    • 102: palm leaf
    • 103: paper
    • 104: papier mâché
    • 105: papyrus
    • 106: pewter
    • 107: photographic paper
    • 108: pine
    • 109: plant fiber
    • 110: plaster
    • 111: plastic
    • 112: plate
    • 113: polyester
    • 114: polystyrene
    • 115: porcelain
    • 116: pottery
    • 117: quartzite
    • 118: rattan
    • 119: realgar
    • 120: reed
    • 121: rice paper
    • 122: rock
    • 123: rush
    • 124: sandstone
    • 125: satin
    • 126: schist
    • 127: seashell
    • 128: serpentine
    • 129: shell
    • 130: silk
    • 131: silver
    • 132: slate
    • 133: soapstone
    • 134: softwood
    • 135: steel
    • 136: stone
    • 137: stoneware
    • 138: stucco
    • 139: sycamore
    • 140: synthetic fiber
    • 141: teak
    • 142: terracotta
    • 143: textiles
    • 144: tin
    • 145: tortoise shell
    • 146: travertine
    • 147: tremolite
    • 148: turquoise
    • 149: velvet
    • 150: wood
    • 151: wool
    • 152: wrought iron
    • 153: zinc alloy
  • production.period: 字符串类型
  • production.place: 字符串类型

数据分割

数据集分为以下几个部分:

  • train: 包含23014个样本,占用2676998745.666481字节
  • validation: 包含5416个样本,占用614570353.2627596字节
  • test: 包含5416个样本,占用676282737.7907596字节

数据集大小

  • 下载大小: 3907725974字节
  • 数据集大小: 3967851836.7200003字节

配置信息

  • config_name: default
    • data_files:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在文化遗产数字化保护的背景下,OrientalMuseum_min6-mat数据集通过系统采集东方博物馆藏品的多模态信息构建而成。该数据集整合了每件藏品的编号、图像文件、描述文本、名称及材质标签等结构化特征,并依据生产时期与地点进行元数据标注。构建过程中,数据经过清洗与标准化处理,划分为训练集、验证集和测试集,确保样本分布均衡,为后续机器学习任务提供可靠基础。
特点
该数据集涵盖丰富的东方艺术与考古材质类别,标签体系包含从动物木乃伊到锌合金等154种精细材质分类,体现了材质多样性。每一条记录均关联高分辨率图像与详尽的描述性文本,形成多模态数据对。数据集规模较大,包含超过三万条样本,且已预先分割为标准的数据划分,便于直接应用于模型训练与评估。
使用方法
研究人员可将该数据集用于材质识别、跨模态检索或文化遗产分类等计算机视觉与自然语言处理任务。使用前需加载指定的数据分割,通过图像与文本字段获取输入特征,并利用标签字段进行监督学习。数据集支持端到端的模型训练流程,用户可结合生产时期与地点等元数据,开展更细粒度的风格或年代分析。
背景与挑战
背景概述
在文化遗产数字化与人工智能交叉领域,东方博物馆文物材质识别数据集应运而生,由James Burton等研究人员构建,旨在系统解决博物馆藏品材质自动分类这一核心研究问题。该数据集聚焦于丰富多样的东方文物,涵盖从动物木乃伊、玉石、金属到纺织品等逾150种精细材质类别,为计算机视觉与文化遗产保护提供了关键的数据基础。其创建推动了文物鉴定、数字化存档及跨学科研究的发展,通过大规模标注图像,显著提升了材质识别模型的泛化能力与准确性,对博物馆学与人工智能融合具有深远影响。
当前挑战
该数据集致力于应对文物材质细粒度分类的挑战,由于文物材质类别高度多样且视觉特征相似(如不同玉石变种),模型需区分细微的纹理与色泽差异,同时克服光照、保存状态及图像背景的干扰。在构建过程中,挑战主要源于文物标注的专业性要求,需依赖领域专家进行精确材质鉴定,且数据收集涉及文物隐私、保存状态不一及图像质量参差,确保类别平衡与标注一致性成为关键难点。
常用场景
经典使用场景
在文化遗产数字化与人工智能交叉领域,OrientalMuseum_min6-mat数据集以其丰富的东方博物馆藏品图像与精细材质标注,为计算机视觉中的细粒度图像分类任务提供了经典范例。该数据集涵盖了从动物木乃伊到各类矿石、织物等超过150种材质类别,每一幅图像均关联详尽的元数据,如文物编号、描述及制作年代。研究者常利用此数据集训练深度神经网络,以识别文物图像中复杂且多样的材质特征,推动模型在微小视觉差异下的判别能力。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在细粒度视觉分类、跨模态检索及文化遗产计算领域。例如,有研究利用注意力机制增强模型对文物局部材质特征的捕捉能力;另有工作探索结合图像与文本描述进行联合嵌入学习,以实现更精准的文物检索。这些工作不仅推动了计算机视觉技术的发展,也为数字人文提供了创新的方法论,促进了学科间的深度融合。
数据集最近研究
最新研究方向
在文化遗产数字化保护领域,OrientalMuseum_min6-mat数据集以其丰富的东方博物馆藏品图像与多模态标注,正推动着前沿研究的发展。该数据集涵盖从动物木乃伊到各类玉石、纺织品等154种材质类别,为基于深度学习的文物材质自动识别与分类提供了关键数据基础。当前研究热点聚焦于利用多模态融合技术,结合图像与文本描述,提升对复杂材质混合文物的鉴别精度,并探索生成式人工智能在文物虚拟修复与数字化展示中的应用。这些进展不仅助力博物馆藏品的智能化管理,也为文化遗产的可持续保护与跨学科研究开辟了新路径,具有深远的学术与社会价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作