蔚蓝档案日语剧情文本提取存档
收藏数据集概述:蔚蓝档案 日语剧情文本提取存档
本项目从《蔚蓝档案》日服客户端 Excel JSON 数据中,提取并整理了全部剧情文本与角色数据,格式为 Markdown。同时提供日文→中文翻译对照表和 AI 角色卡生成工具。
核心成果物
- 剧情文本:位于
ba-stories/目录下,共 2,022 个文件,总计超过 110,348 行。具体分类如下:
| 类别 | 文件数 | 行数/条数 |
|---|---|---|
| 主线 | 310 | 30,829 行 |
| 社团故事 | 53 | 4,387 行 |
| 活动 | 492 | 31,846 行 |
| 羁绊故事 | 694 | 42,790 行 |
| 迷你故事 | 5 | 496 行 |
| MomoTalk | 223 | 12,821 条消息 |
| 角色数据 | 245 | 档案 + 台词 |
| 合计 | 2,022 | 110,348+ |
-
翻译对照表:覆盖角色、学校、社团、剧情标题、地名、术语等 9 个类别。翻译来源优先级为:社区译名 > 游戏数据。提供人类可读版(
翻译对照表.md)和机器可读版(utils/translation_table.json)。其中角色、学校、社团、爱用品、地名覆盖率均达 100%。 -
AI 角色卡生成工具(Claude Code Skill):可从剧情语料中自动分析角色说话方式、口癖、关系动态,生成 AI roleplay 人设档案,并支持导出 SillyTavern 酒馆卡。支持多种 AI 编程工具(Claude Code、Codex CLI、Cline / Roo Code、Cursor、Aider 等),也可通过独立脚本使用。
快速开始
- 环境要求:Python 3.7+,需安装
opencc-python-reimplemented(繁转简),可选安装Pillow(用于酒馆卡 PNG 导出)。 - 剧情文本生成:通过一系列 Python 脚本(
utils/build_manifest、utils/generate_all、utils/build_readme)处理原始数据并生成 Markdown 文件。 - 翻译表生成:通过脚本从游戏数据提取 JP→CN 翻译,并支持合并社区译名,生成最终报告。
- AI 角色卡生成:可使用内置 skill 自动触发,或通过独立脚本(
extract_lines.py、find_patterns.py、find_interactions.py、export_tavern_card.py)手动提取和分析。
项目结构
ba-story/ ├── raw-data/ # 日语原始数据 ├── raw-data-global/ # 多语言数据 ├── ba-json -> raw-data/Excel # 软链接 ├── utils/ # 数据处理管线脚本与翻译表 ├── ba-stories/ # 最终产物:2,022 个 Markdown 文件 ├── .claude/skills/character-ai-profile/ # AI 角色卡生成工具 ├── 翻译对照表.md # 人类可读的翻译表 └── profiles/ # 生成的角色档案输出目录
数据来源与版本
- 日语剧情文本:来自 electricgoat/ba-data @ jp
- 多语言对译:来自 electricgoat/ba-data @ global
- 社区标准简中译名:来自 萌娘百科 · 蔚蓝档案
- 国服简中译名:来自 GameKee BA wiki
- 数据版本:基于 Yostar Japan v1.68.x 的 380 个 Excel JSON 文件
声明
本存档仅供研究和学习用途,游戏内数据版权归原版权方所有,代码部分使用 MIT 许可证。




