five

james-burton/OrientalMuseum_min5-mat|文物分类数据集|文物识别数据集

收藏
hugging_face2024-02-28 更新2024-03-04 收录
文物分类
文物识别
下载链接:
https://hf-mirror.com/datasets/james-burton/OrientalMuseum_min5-mat
下载链接
链接失效反馈
资源简介:
该数据集主要用于对象识别和分类,包含多种材料和工艺的详细分类。数据集分为训练、验证和测试三个部分,每个部分都有具体的字节数和示例数量。
提供机构:
james-burton
原始信息汇总

数据集概述

特征信息

数据集包含以下特征:

  • obj_num: 类型为字符串
  • file: 类型为字符串
  • image: 类型为图像
  • root: 类型为字符串
  • description: 类型为字符串
  • object_name: 类型为字符串
  • other_name: 类型为字符串
  • label: 类型为分类标签,包含以下类别:
    • 0: Animal Mummy
    • 1: Batik
    • 2: Buffalo Horn
    • 3: Chinese Red Rosewood
    • 4: Colour on Paper
    • 5: Flint/Chert
    • 6: Gouache on Paper
    • 7: Haematite/Red Ochre
    • 8: Human Bone
    • 9: Ink and Colour on Paper
    • 10: Ink and Colours on Silk
    • 11: Ink and Opaque Watercolour on Paper
    • 12: Ink on Paper
    • 13: Jade (Calcified)
    • 14: Japanese paper
    • 15: Microcline/Green Feldspar/Amazon-Stone
    • 16: Nile Mud
    • 17: Opaque Watercolour on Paper
    • 18: Opaque Watercolour or Gouache on Mica
    • 19: Pith
    • 20: Pith Paper
    • 21: Plant Product
    • 22: Resin/Plastic
    • 23: Rhinoceros Horn
    • 24: Smaragdite
    • 25: Steatite
    • 26: Steatite/Soap Stone
    • 27: Watercolour on Rice Paper
    • 28: acrylic
    • 29: agate
    • 30: alabaster
    • 31: aluminum
    • 32: amber
    • 33: amethyst
    • 34: antler
    • 35: artificial stone
    • 36: balsa
    • 37: bamboo
    • 38: basalt
    • 39: bone
    • 40: bowenite
    • 41: boxwood
    • 42: brass
    • 43: brocade
    • 44: bronze
    • 45: burnt jade
    • 46: canvas
    • 47: cardboard
    • 48: cards
    • 49: carnelian
    • 50: cast iron
    • 51: celadon
    • 52: cellulose acetate
    • 53: ceramic
    • 54: chalcedony
    • 55: cherry
    • 56: clay
    • 57: cloth
    • 58: coconut
    • 59: copper
    • 60: copper alloy
    • 61: coral
    • 62: cotton
    • 63: crystal
    • 64: diorite
    • 65: dolerite
    • 66: earthenware
    • 67: ebony
    • 68: emerald
    • 69: enamel
    • 70: faience
    • 71: felt
    • 72: flax
    • 73: flint
    • 74: gauze
    • 75: glass
    • 76: gold
    • 77: granite
    • 78: gray ware
    • 79: hardwood
    • 80: horn
    • 81: incense
    • 82: ink
    • 83: iron
    • 84: ivory
    • 85: jade
    • 86: jadeite
    • 87: jasper
    • 88: lacquer
    • 89: lapis lazuli
    • 90: lazurite
    • 91: lead
    • 92: lead alloy
    • 93: leather
    • 94: limestone
    • 95: linen
    • 96: malachite
    • 97: marble
    • 98: metal
    • 99: mineral
    • 100: mother of pearl
    • 101: muslin
    • 102: nephrite
    • 103: nylon
    • 104: obsidian
    • 105: organic material
    • 106: paint
    • 107: palm fiber
    • 108: palm leaf
    • 109: paper
    • 110: papier mâché
    • 111: papyrus
    • 112: pewter
    • 113: photographic paper
    • 114: pine
    • 115: plant fiber
    • 116: plaster
    • 117: plastic
    • 118: plate
    • 119: polyester
    • 120: polystyrene
    • 121: porcelain
    • 122: pottery
    • 123: quartzite
    • 124: rattan
    • 125: realgar
    • 126: reed
    • 127: rice paper
    • 128: rock
    • 129: rush
    • 130: sandstone
    • 131: satin
    • 132: schist
    • 133: seashell
    • 134: serpentine
    • 135: shell
    • 136: silk
    • 137: siltstone
    • 138: silver
    • 139: skull
    • 140: slate
    • 141: soapstone
    • 142: softwood
    • 143: stalagmites
    • 144: steel
    • 145: stone
    • 146: stoneware
    • 147: straw
    • 148: stucco
    • 149: sycamore
    • 150: synthetic fiber
    • 151: teak
    • 152: terracotta
    • 153: textiles
    • 154: tin
    • 155: tortoise shell
    • 156: tourmaline
    • 157: travertine
    • 158: tremolite
    • 159: turquoise
    • 160: velvet
    • 161: wood
    • 162: wool
    • 163: wrought iron
    • 164: zinc alloy
  • production.period: 类型为字符串
  • production.place: 类型为字符串

数据分割

数据集分为以下几个部分:

  • train: 包含23060个样本,总大小为3150369309.880859字节
  • validation: 包含5426个样本,总大小为685257063.8715706字节
  • test: 包含5426个样本,总大小为535025459.36357063字节

数据集大小

  • 下载大小: 3911528513字节
  • 数据集总大小: 4370651833.116字节

配置信息

  • config_name: default
    • 数据文件路径:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自东方博物馆的藏品,经过精心筛选与整理,确保每件藏品至少包含五种不同的材料信息。数据集的构建过程包括对藏品的详细描述、图像采集、以及材料分类标签的标注。通过这种方式,数据集不仅提供了丰富的视觉信息,还包含了详细的材料学和历史学背景,为研究者提供了多维度的分析基础。
特点
此数据集的显著特点在于其多样的材料分类标签,涵盖了从动物木乃伊到各种矿物和合成材料的广泛范围。此外,数据集还包含了藏品的生产时期和地点信息,为研究者提供了时空背景的参考。图像与文本信息的结合,使得该数据集在艺术史、材料科学和文化遗产保护等多个领域具有广泛的应用潜力。
使用方法
使用该数据集时,研究者可以利用其提供的图像和文本信息进行多模态分析。例如,可以通过图像识别技术对藏品进行分类,或利用文本信息进行材料和历史背景的深入研究。数据集的训练、验证和测试集划分合理,适合用于机器学习和深度学习模型的训练与评估。此外,数据集的结构化设计也便于研究者进行定制化的数据处理和分析。
背景与挑战
背景概述
东方博物馆(Oriental Museum)数据集,由詹姆斯·伯顿(James Burton)创建,专注于博物馆藏品的数字化和分类。该数据集包含了超过23,000个文物图像及其详细描述,涵盖了从古代到现代的多种材料和工艺。核心研究问题在于如何通过图像识别技术对这些文物进行自动分类,以支持文化遗产的保护和研究。该数据集的创建不仅推动了计算机视觉在文化遗产领域的应用,还为相关研究提供了丰富的数据资源。
当前挑战
东方博物馆数据集在构建过程中面临多重挑战。首先,文物材料的多样性使得分类任务复杂化,数据集中包含了165种不同的材料标签,这对模型的泛化能力提出了高要求。其次,图像质量和光照条件的差异,以及文物本身的磨损和老化,都增加了图像识别的难度。此外,数据集的构建还需要克服文物描述信息的不一致性和缺失问题,以确保数据的准确性和完整性。这些挑战不仅影响了数据集的质量,也对后续的模型训练和应用提出了更高的技术要求。
常用场景
经典使用场景
在文化遗产保护与研究领域,james-burton/OrientalMuseum_min5-mat数据集被广泛用于文物分类与识别任务。该数据集包含了大量东方博物馆藏品的图像及其详细描述,涵盖了从古代艺术品到现代工艺品的多种类别。通过深度学习模型,研究人员能够高效地对这些文物进行自动分类,从而为博物馆的数字化管理提供了强有力的支持。
衍生相关工作
基于james-burton/OrientalMuseum_min5-mat数据集,研究人员开发了多种文物分类与识别模型,并在多个国际学术会议上发表了相关论文。这些工作不仅推动了文化遗产保护技术的进步,还激发了更多关于文物数字化和智能管理的创新研究。此外,该数据集还被用于跨学科研究,如结合历史学、艺术学和计算机科学,探索文物背后的文化内涵和历史价值。
数据集最近研究
最新研究方向
在东方博物馆文物数据集(james-burton/OrientalMuseum_min5-mat)的最新研究中,学者们聚焦于多模态数据融合与文物材质识别的交叉领域。通过结合图像、文本和标签信息,研究者们致力于开发更为精准的文物材质分类模型,以提升文物保护与修复的科学性。这一研究方向不仅推动了文化遗产数字化保护的技术进步,也为跨学科研究提供了新的视角,特别是在人工智能与文化遗产保护的结合上,展现了巨大的潜力和深远的影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录