five

Dunhuang Grottoes Painting Dataset|敦煌壁画数据集|深度学习数据集

收藏
arXiv2019-07-11 更新2024-08-06 收录
敦煌壁画
深度学习
下载链接:
http://arxiv.org/abs/1907.04589v2
下载链接
链接失效反馈
资源简介:
该数据集专为敦煌石窟壁画修复而设计,提供了大量的训练和测试样本,足以支持深度学习方法的应用。
创建时间:
2019-07-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建旨在推动敦煌壁画保护与修复的数字化进程。敦煌莫高窟壁画作为珍贵的文化遗产,其壁画经历了千年岁月的侵蚀与老化。为模拟壁画的实际损坏情况,研究团队选取了莫高窟第7号洞窟的壁画,通过考古学家的努力,将大幅壁画分割为600幅独立图像,每幅图像聚焦于佛陀、建筑、装饰和人物等主题,分辨率介于500至800像素之间。数据集分为训练集和测试集,其中500幅图像用于训练,100幅用于测试,并提供了模拟壁画老化的方法。
使用方法
用户可以通过注册后从云端平台下载挑战数据集。下载的压缩包中包含了训练图像和测试图像,其中训练图像包括完好图像、老化区域掩膜以及老化图像。测试集仅提供老化图像。数据集的使用包括对图像进行修复,并将修复结果提交至服务器,服务器将自动使用DSSIM和LMSE等指标对结果进行评估。用户需确保提交的文件名符合规定格式,以便系统能够正确关联测试样本及其修复结果。
背景与挑战
背景概述
敦煌莫高窟壁画数据集(Dunhuang Grottoes Painting Dataset)承载着中国宝贵的文化遗产。该数据集的创建旨在推动莫高窟壁画的数字化保护与修复工作。莫高窟,位于甘肃省敦煌市东南部,是古代丝绸之路上的宗教文化交汇点,拥有492个洞窟,保存着超过45000平方米的壁画和2000余尊彩塑造像。这些壁画创作于公元4世纪至14世纪,对于历史、艺术和技术研究具有重大价值。然而,随着时间的推移,壁画遭受了严重的损害和老化。为应对这一挑战,敦煌研究院成立于1970年代,致力于系统地保护这些文化遗产。本研究推出了首个公开的敦煌莫高窟壁画数据集,为壁画修复研究提供了丰富的训练和测试样本,有力地推动了基于数据的壁画修复技术的发展。
当前挑战
敦煌莫高窟壁画数据集的构建面临诸多挑战。首先,数据集需解决的领域问题是壁画的高精度修复,这要求数据集能够真实地模拟壁画的损伤和老化过程。在构建过程中,挑战包括但不限于:1) 如何从物理损伤的壁画中提取高质量的图像数据;2) 如何生成能够模拟真实老化情况的损伤图像;3) 如何确保数据集的多样性和代表性,以涵盖莫高窟壁画中的各种内容和风格;4) 如何设计有效的评价指标来衡量修复结果的质量。这些挑战不仅涉及到数据采集和处理的技术问题,还包括如何利用这些数据推动计算机视觉和机器学习技术在壁画修复领域的应用。
常用场景
经典使用场景
敦煌莫高窟壁画数据集的问世,旨在推动文化遗产的数字化保护和修复工作。该数据集提供了一个丰富的壁画训练和测试样本集,特别适用于深度学习方法。其经典的使用场景在于,研究者可以利用这些数据来训练和测试计算机视觉模型,以实现对壁画的高精度自动修复。
解决学术问题
该数据集解决了传统手工修复壁画耗时巨大且效果受限的学术问题。通过提供壁画的清晰和破损样本,研究者和工程师可以开发出基于机器学习的自动修复算法,极大地提高了修复效率和质量,对于文化遗产保护具有重要意义。
实际应用
在实际应用中,敦煌莫高窟壁画数据集可以被广泛应用于文化遗产数字化保护、艺术品修复、历史研究以及艺术创作等多个领域。它不仅帮助实现了壁画的数字化保存,还促进了相关技术的进步和产业的发展。
数据集最近研究
最新研究方向
敦煌莫高窟壁画数据集(Dunhuang Grottoes Painting Dataset)的发布,为壁画保护与修复领域带来了革命性的进展。该数据集通过数字化手段,首次公开了大量壁画训练与测试样本,为深度学习方法提供了充足的资源。目前,该数据集正被广泛应用于图像复原研究,特别是在壁画老化与损伤的自动修复技术方面。研究者们通过计算机视觉和机器学习技术,致力于解决壁画自动修复的难题,以实现对敦煌莫高窟这一珍贵文化遗产的有效保护。敦煌莫高窟壁画数据集的推出,不仅促进了电子遗产保护技术的发展,也为文化遗产的数字化保存与传承提供了新的视角和方法。
相关研究论文
  • 1
    Dunhuang Grottoes Painting Dataset and Benchmark · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录