Touhou Memory Archive Data

github2025-09-20 更新2025-09-21 收录

下载链接：

https://github.com/TouhouGleaners/touhou-memory-archive-data

下载链接

链接失效反馈

官方服务：

资源简介：

东方记忆档案馆数据，包含从B站获取的视频数据，用于生成Github Pages展示页面。数据结构包括视频AV号、BV号、标题、简介、封面图片URL、发布时间、标签、东方相关度检测状态、UP主名称以及分P信息等字段。

Oriental Memory Archive Dataset is a dataset housing video data acquired from Bilibili, designed for generating GitHub Pages-based showcase webpages. Its data structure comprises fields including video AV ID, video BV ID, title, description, cover image URL, release time, tags, Oriental relevance detection status, uploader username, multi-part video information, and other related fields.

创建时间：

2025-09-16

原始信息汇总

数据集概述

数据集名称

Touhou Memory Archive Data - 东方记忆档案馆数据字典

数据集用途

保存Touhou Memory Archive仓库获取到的数据，用于生成Github Pages以展示视频数据。

视频数据结构 (videos.json)

字段说明

aid: 视频AV号
bvid: 视频BV号
title: 视频标题
description: 视频简介
pic: 封面图片URL
created: 发布时间 (Unix时间戳)
tags: 标签数组，例如["标签1", "标签2"]
touhou_status: 东方相关度，取值包括：
- 0：未检查
- 1：自动检测为东方
- 2：自动检测为非东方
- 3：人工检测为东方
- 4：人工检测为非东方
uploader_name: UP主名称
parts: 分P信息数组，包含以下字段：
- cid: 分P CID
- page: 分P序号
- part: 分P标题
- duration: 分P时长 (秒)
- ctime: 分P创建时间 (Unix时间戳)

数据源

https://github.com/TouhouGleaners/touhou-memory-archive-data

搜集汇总

数据集介绍

构建方式

在数字人文领域，东方记忆档案馆数据集的构建体现了系统化数据采集与标注的精密流程。该数据集通过自动化脚本从视频平台抓取东方Project相关视频的元数据，包括标题、描述、标签及发布时间等关键字段，并采用人机协同的标注机制对视频内容进行东方相关度分类，确保数据质量与权威性。

特点

该数据集的核心特点在于其多维度的结构化视频元数据设计，涵盖AV/BV号、分P信息、时长及人工验证的东方相关度标签。其独特之处在于融合了自动化检测与人工审核的双重校验机制，既保障了数据规模的扩展性，又提升了标注准确性，为东方同人文化研究提供了高可信度的基础数据。

使用方法

研究者可通过解析JSON格式的视频数据文件，利用标准化的字段结构进行跨模态分析。例如结合发布时间序列研究创作趋势，或通过标签与相关度字段筛选特定主题内容。数据集支持直接集成至Web应用（如GitHub Pages），亦可作为机器学习任务的输入源用于分类或推荐系统开发。

背景与挑战

背景概述

东方记忆档案馆数据集诞生于数字人文研究兴起的时代背景下，由东方Project同人文化研究社群于2022年构建。该数据集系统性地采集了Bilibili平台东方同人视频元数据，涵盖AV/BV编号、标题、标签及创作者信息等多维字段。其核心价值在于通过人工与智能双轨标注机制，解决了二次创作视频文化价值量化评估的学术空白，为御宅文化传播学提供了首例结构化观测样本。

当前挑战

该数据集面临双重挑战：在领域层面需解决UGC视频东方元素识别的语义模糊性问题，特别是对混搭题材作品的文化特征提取；在构建过程中遭遇非结构化数据治理难题，包括跨年份视频元数据格式迭代兼容、弹幕数据与视频实体关联映射，以及人工标注过程中对亚文化特定符号的一致性判读标准确立。

常用场景

经典使用场景

在数字人文与粉丝文化研究领域，Touhou Memory Archive Data 作为东方Project同人视频的结构化档案，常被用于分析二次创作内容的传播模式与社区互动特征。研究者通过时间序列分析视频发布规律，结合标签系统探讨主题演化，并依据东方相关度标注深入解析跨媒介叙事的粉丝参与度，为亚文化数字档案的学术建模提供典型范例。

解决学术问题

该数据集有效解决了同人创作生态量化研究的难题，通过标准化元数据与人工验证机制，为学者提供了检验文化传播理论、粉丝劳动价值评估以及自动化内容分类算法的基准。其东方相关度标签体系尤其重要，使得区分官方与同人内容的模糊边界得以量化，推动了跨媒介研究中的语义标注方法论创新。

衍生相关工作

基于该数据集衍生的经典工作包括基于时间戳与标签网络的同人创作浪潮分析模型，以及结合深度学习的东方内容自动识别框架。部分研究进一步扩展了多模态分析，将视频封面与元数据结合，探索视觉风格与传播影响力的关联，推动了开源文化数据分析工具链的成熟。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集