five

Goshuin-SFT

收藏
Hugging Face2025-12-23 更新2025-12-24 收录
下载链接:
https://huggingface.co/datasets/kushalc1/Goshuin-SFT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含图像及相关信息,涉及多个地点的ID、名称、假名(日语拼音)、区域、背景和日期。数据集分为三个部分:shikoku88、saigoku33和bando33,每个部分都有特定的大小和示例数量。数据集语言为日语,标签为'艺术',规模类别在1K到10K之间。
创建时间:
2025-12-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Goshuin-SFT
  • 托管平台: Hugging Face Datasets
  • 语言: 日语 (ja)
  • 主要标签: 艺术 (art)
  • 数据规模: 1K < 样本数 < 10K

数据集规模

  • 总下载大小: 255,691,092 字节
  • 总数据集大小: 257,487,360 字节

数据结构与特征

数据集包含以下字段:

  • image: 图像数据 (dtype: image)
  • spot_id: 地点ID (dtype: int64)
  • name: 名称 (dtype: string)
  • kana: 名称的假名拼写 (dtype: string)
  • area: 区域 (dtype: string)
  • background: 背景信息 (dtype: string)
  • date: 日期 (dtype: string)

数据划分

数据集包含三个独立的划分(split),每个划分对应一个特定的朝圣路线或系列:

  1. shikoku88

    • 样本数量: 1,312 个
    • 数据大小: 160,120,352 字节
    • 数据文件模式: data/shikoku88-*
  2. saigoku33

    • 样本数量: 510 个
    • 数据大小: 48,594,809 字节
    • 数据文件模式: data/saigoku33-*
  3. bando33

    • 样本数量: 495 个
    • 数据大小: 48,772,199 字节
    • 数据文件模式: data/bando33-*

配置

  • 默认配置名称: default
  • 该配置关联了上述三个划分及其对应的数据文件路径。
搜集汇总
数据集介绍
main_image_url
构建方式
在文化遗产数字化保护的背景下,Goshuin-SFT数据集的构建聚焦于日本传统寺庙与神社的御朱印收集。该数据集通过系统性地采集日本三大著名巡礼路线——四国八十八所、西国三十三所及坂东三十三所的御朱印图像,并辅以结构化文本信息而创建。每一数据样本均包含御朱印的高清图像,并关联了地点编号、名称、假名读音、所属区域、历史背景以及收集日期等多维度元数据,确保了数据的完整性与可追溯性。这种基于实地巡礼与数字化归档相结合的方法,为日本宗教艺术与地方文化研究提供了高质量的视觉-文本对齐资源。
特点
Goshuin-SFT数据集的核心特点在于其高度的结构化和文化特异性。数据集严格依照日本历史悠久的巡礼路线进行划分,涵盖了四国八十八所、西国三十三所和坂东三十三所三个独立子集,总计超过两千三百个样本。每个样本不仅提供了御朱印的视觉图像,还整合了精确的文本描述,包括地点的官方名称、假名标注、地理区域分类以及简要的历史背景介绍。这种多模态设计使得数据集能够同时支持图像识别、文本生成以及跨模态检索等研究任务,尤其适用于涉及日本传统文化、书法艺术与宗教符号学的计算人文研究。
使用方法
对于学术研究和技术开发而言,Goshuin-SFT数据集可通过HuggingFace平台直接加载使用。研究者可利用`datasets`库,指定对应的配置名称(如`shikoku88`、`saigoku33`或`bando33`)来访问不同的巡礼路线子集。数据集中`image`字段的御朱印图像与`name`、`background`等文本字段天然对齐,便于开展多模态学习模型的训练与评估,例如视觉问答、图像标注或风格迁移。此外,清晰的元数据结构支持对特定区域或历史时期的御朱印进行筛选与分析,为数字人文领域的定量研究提供了便利工具。
背景与挑战
背景概述
Goshuin-SFT数据集聚焦于日本传统文化中的御朱印收集领域,由相关研究机构或团队于近年构建,旨在系统性地整理与数字化日本寺庙与神社的御朱印图像及其关联信息。该数据集的核心研究问题在于如何通过结构化数据支持文化遗产的数字化保存与智能分析,为艺术史、民俗学及计算机视觉领域的交叉研究提供基础资源。其影响力体现在促进了对日本宗教艺术的形式化研究,并为基于图像的自动识别与分类任务开辟了新的应用场景。
当前挑战
该数据集所解决的领域问题涉及对御朱印图像的内容理解与元数据关联,挑战在于御朱印作为手写艺术品的多样性与复杂性,包括印章图案的细微差异、书法风格的个性化表达以及纸质背景的纹理干扰,这些因素均增加了自动识别与分类的难度。在构建过程中,挑战主要源于数据采集的实地性与协调性,需跨越不同地域的寺庙与神社进行系统收集,同时确保图像质量的一致性与元数据标注的准确性,涉及多语言环境下的文化术语标准化与时间戳记录的统一处理。
常用场景
经典使用场景
在文化遗产数字化与多模态人工智能研究领域,Goshuin-SFT数据集以其独特的御朱印图像与结构化文本信息,为视觉-语言联合建模提供了经典范例。该数据集常用于训练模型理解日本寺庙与神社的视觉特征,并关联其名称、地域背景及历史日期等文本属性,从而支持图像描述生成、跨模态检索等任务,推动了文化资产智能解析技术的发展。
实际应用
在实际应用中,Goshuin-SFT数据集支撑了智能旅游导览、文化遗产教育平台等系统的开发。基于该数据集训练的模型可自动识别御朱印图像,并提供相关的历史背景与地域信息,增强用户体验,同时为博物馆、档案馆的数字化管理提供技术支持,助力文化资源的可持续利用与推广。
衍生相关工作
围绕Goshuin-SFT数据集,已衍生出多项经典研究工作,主要集中在多模态学习与文化遗产分析方向。这些工作利用数据集的图像-文本对,开发了先进的视觉问答模型、跨模态检索系统以及文化内容生成工具,进一步拓展了人工智能在艺术与历史领域的应用边界,为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作