蔚蓝档案日语剧情文本提取存档

github2026-04-25 更新2026-04-27 收录

下载链接：

https://github.com/HePudding/ba-storybook

下载链接

链接失效反馈

官方服务：

资源简介：

从Blue Archive日服(Yostar Japan)客户端Excel JSON数据中，提取全部剧情文本与角色数据并整理为Markdown格式的存档。附带JP→CN翻译对照表和AI角色卡生成工具。

Extracted from the Excel JSON dataset of the Blue Archive Japanese server (Yostar Japan) client, this archive includes all extracted plot texts and character data organized in Markdown format. It also comes with a JP→CN translation reference table and an AI character card generation tool.

创建时间：

2026-04-25

原始信息汇总

数据集概述：蔚蓝档案日语剧情文本提取存档

本项目从《蔚蓝档案》日服客户端 Excel JSON 数据中，提取并整理了全部剧情文本与角色数据，格式为 Markdown。同时提供日文→中文翻译对照表和 AI 角色卡生成工具。

核心成果物

剧情文本：位于 ba-stories/ 目录下，共 2,022 个文件，总计超过 110,348 行。具体分类如下：

类别	文件数	行数/条数
主线	310	30,829 行
社团故事	53	4,387 行
活动	492	31,846 行
羁绊故事	694	42,790 行
迷你故事	5	496 行
MomoTalk	223	12,821 条消息
角色数据	245	档案 + 台词
合计	2,022	110,348+

翻译对照表：覆盖角色、学校、社团、剧情标题、地名、术语等 9 个类别。翻译来源优先级为：社区译名 > 游戏数据。提供人类可读版（翻译对照表.md）和机器可读版（utils/translation_table.json）。其中角色、学校、社团、爱用品、地名覆盖率均达 100%。
AI 角色卡生成工具（Claude Code Skill）：可从剧情语料中自动分析角色说话方式、口癖、关系动态，生成 AI roleplay 人设档案，并支持导出 SillyTavern 酒馆卡。支持多种 AI 编程工具（Claude Code、Codex CLI、Cline / Roo Code、Cursor、Aider 等），也可通过独立脚本使用。

快速开始

环境要求：Python 3.7+，需安装 opencc-python-reimplemented（繁转简），可选安装 Pillow（用于酒馆卡 PNG 导出）。
剧情文本生成：通过一系列 Python 脚本（utils/build_manifest、utils/generate_all、utils/build_readme）处理原始数据并生成 Markdown 文件。
翻译表生成：通过脚本从游戏数据提取 JP→CN 翻译，并支持合并社区译名，生成最终报告。
AI 角色卡生成：可使用内置 skill 自动触发，或通过独立脚本（extract_lines.py、find_patterns.py、find_interactions.py、export_tavern_card.py）手动提取和分析。

项目结构

ba-story/ ├── raw-data/ # 日语原始数据 ├── raw-data-global/ # 多语言数据 ├── ba-json -> raw-data/Excel # 软链接 ├── utils/ # 数据处理管线脚本与翻译表 ├── ba-stories/ # 最终产物：2,022 个 Markdown 文件 ├── .claude/skills/character-ai-profile/ # AI 角色卡生成工具 ├── 翻译对照表.md # 人类可读的翻译表 └── profiles/ # 生成的角色档案输出目录

数据来源与版本

日语剧情文本：来自 electricgoat/ba-data @ jp
多语言对译：来自 electricgoat/ba-data @ global
社区标准简中译名：来自萌娘百科 · 蔚蓝档案
国服简中译名：来自 GameKee BA wiki
数据版本：基于 Yostar Japan v1.68.x 的 380 个 Excel JSON 文件

声明

本存档仅供研究和学习用途，游戏内数据版权归原版权方所有，代码部分使用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

该数据集基于蔚蓝档案日服客户端中的Excel JSON数据文件，通过系统化的管线进行提取与清洗。首先从electricgoat/ba-data仓库同步日语数据源，随后利用utils目录下的模块化脚本，包括数据加载、对话解析、Markdown格式转换等工具，将原始的ScriptKr结构转化为可读的剧情文本。翻译对照表的构建则融合了国际服游戏数据、萌娘百科社区译名与GameKee国服译名，通过优先级合并策略生成覆盖角色、学校、社团等九大类别的高质量翻译表，最终产出超过两千个Markdown文件及机器可读的JSON字典。

特点

本数据集涵盖蔚蓝档案全线剧情内容，累计收录逾十一万行文本，涵盖主线、社团故事、活动、羁绊故事、迷你故事及MomoTalk消息，并附带二百四十五份角色档案与台词。其翻译对照表实现了角色名、地点、术语等领域近乎全额的覆盖率，核心译名经由社区标准与游戏数据的双重校验。此外，数据集创新性地集成了AI角色卡生成工具，能够从剧情语料中自动挖掘角色说话方式、口癖与关系动态，生成适用于角色扮演场景的人设档案，并支持导出为SillyTavern酒馆卡格式。

使用方法

使用者需配置Python 3.7及以上环境，并安装opencc-python-reimplemented用于繁简转换。若要生成剧情文本，可执行预设脚本依次更新数据清单与全部Markdown输出；翻译表则可利用专用管线完成从原始数据提取到缺失条目填补再到最终合并报告的完整流程。AI角色卡功能既支持通过Claude Code等工具的语音指令自动触发，也提供了独立的命令行脚本用于提取台词、分析互动模式及导出SillyTavern卡片，兼顾自动化与灵活性。

背景与挑战

背景概述

该数据集创建于日本Yostar公司运营的《蔚蓝档案》日服客户端v1.68.x版本时期，由社区开发者electricgoat等研究人员从游戏Excel JSON数据中提取并整理。核心研究问题在于系统性地构建日语剧情文本的Markdown存档，涵盖主线、社团故事、活动、羁绊故事、迷你故事及MomoTalk等七类内容，总计超过11万行文本。数据集不仅整合了角色档案与台词，还辅以JP→CN翻译对照表，覆盖角色、学校、社团、术语等九大类别，翻译来源优先采纳萌娘百科等社区标准译名。这一资源为游戏叙事研究、多语言语料库建设及AI角色行为建模提供了结构化基础，显著降低剧情文本获取与对齐的成本，在游戏本地化与自然语言处理领域具有重要参考价值。

当前挑战

该数据集面临的核心挑战包括：一是游戏剧情文本的多源性——数据需从日服客户端、国际服多语言对译及社区百科等不同来源融合，来源间术语与译名不一致导致对齐困难；二是构建过程中需处理Excel JSON数据的非结构化问题，脚本需精确解析ScriptKr脚本格式并转化为结构化的对话与Markdown，同时维护跨2,022个文件的分类一致性；三是社区译名与官方数据的优先级冲突，如部分活动因国服未上线而翻译覆盖率低至54.9%，需依赖不完整的社区输入补全。此外，AI角色卡生成需从剧日语料中自动提取说话方式、口癖及角色关系动态，这对细粒度文本特征分析与模式识别提出了较高要求。

常用场景

经典使用场景

该数据集的核心应用场景在于为《蔚蓝档案》的日语剧情文本提供系统化、结构化的存档与多语言对照资源。研究者可利用其覆盖主线、社团、活动、羁绊故事及MomoTalk在内的2022个Markdown文档，对超过11万行的日语对话进行语料分析与语言学探究。同时，数据集内置的JP→CN翻译对照表覆盖角色、学校、社团等9大类别，支持社区译名与游戏数据的优先级合并，为文本挖掘、跨语言信息检索及机器翻译模型微调提供了高质量的平行语料基础。

实际应用

在实际应用中，该数据集直接赋能了游戏剧情汉化社区的效率提升与质量管控。通过机器可读的翻译表与自动化管线，汉化组可快速识别未翻译条目、验证译名一致性，并基于剧情标题与地名的全覆盖映射缩短校对周期。此外，数据集中集成的AI角色卡生成工具能从剧情语料自动分析角色说话方式、口癖及关系动态，导出支持SillyTavern平台的酒馆卡，为角色扮演社区与AI对话机器人开发者提供了从文本到交互的端到端解决方案，显著降低了虚拟角色人格建模的数据准备成本。

衍生相关工作

基于该数据集衍生的代表性工作包括AI角色卡生成与智能体对话系统的构建。Claude Code Skill模块通过提取角色台词、分析口癖模式与交互关系，自动生成结构化人设档案，实现了从静态文本到动态角色扮演的范式转换。此外，翻译对照表的多来源合并策略催生了针对游戏领域术语对齐与低资源翻译的优化管线，后续工作可进一步扩展至多语言情感分析、角色网络图谱构建及基于叙事线的剧情生成模型。这些衍生研究不仅深化了游戏语料的价值挖掘，也为虚拟角色的人格化建模与交互式叙事系统奠定了数据基石。

以上内容由遇见数据集搜集并总结生成