SoulsWikiChunks
收藏Soulslike Wiki Chunks (RAG Corpus) 数据集概述
数据集基本信息
- 许可证: CC BY-NC-SA 4.0
- 任务类别: 文本生成、特征提取、文本检索、文本排序、句子相似性
- 语言: 英语
- 规模: 100K<n<1M
- 标签: 魂类游戏、游戏、RPG、黑暗奇幻、传说、RAG、知识库、NLP、网络爬取、文本分块、段落、艾尔登法环、艾尔登法环影树之影、夜之统治、黑暗之魂、血源诅咒、只狼、恶魔之魂、Fextralife
数据集描述
该数据集包含从原始魂类维基爬取数据中提取的分块段落,专门为RAG系统优化,可直接用于向量存储、检索增强生成系统和微调工作流。
数据集结构
数据格式
- 格式: 分层JSON快照
- 顶层键: 游戏/项目标识符(如"Elden Ring"、"Bloodborne"等)
- 第二层: 唯一标识每个段落的UUID
数据结构示例
json { "游戏名称": { "UUID": { "content": "段落内容", "metadata": { "raw_path": "原始文件路径", "project": "项目名称", "source_url": "源URL", "model": "生成模型ID", "category": "分类标签", "chunk_headline": "段落标题" } } } }
元数据字段
raw_path: 原始JSON文件相对路径project: 游戏标识符source_url: 原始维基URLmodel: 生成或重写段落的模型标识符category: 语义分类(共15个类别)chunk_headline: 人类可读的段落标题
分类类别
LORE、LOCATION、NPC、BOSS、ENEMY、WEAPON、ARMOR、ACCESSORY、MAGIC_ABILITY、ITEM、MECHANIC、QUEST_GUIDE、BUILD_CLASS、OTHER
游戏覆盖范围
- 艾尔登法环(包括影树之影和夜之统治)
- 黑暗之魂三部曲
- 血源诅咒
- 只狼:影逝二度
- 恶魔之魂
段落长度统计
各游戏段落内容长度统计(字符数)
| 游戏项目 | 数量 | 平均值 | 标准差 | 最小值 | 25%分位数 | 中位数 | 75%分位数 | 最大值 |
|---|---|---|---|---|---|---|---|---|
| Bloodborne | 2,085 | 500.7 | 179.8 | 137 | 406 | 480 | 550 | 2,044 |
| DarkSouls | 3,581 | 489.7 | 168.9 | 72 | 397 | 472 | 549 | 2,185 |
| DarkSouls2 | 4,945 | 496.1 | 142.2 | 93 | 417 | 484 | 554 | 2,022 |
| DarkSouls3 | 4,029 | 471.9 | 163.2 | 101 | 381 | 456 | 533 | 2,029 |
| DemonsSouls | 1,430 | 498.2 | 128.8 | 107 | 431 | 493 | 560 | 1,670 |
| EldenRing | 15,219 | 470.5 | 177.4 | 78 | 376 | 455 | 529 | 2,214 |
| EldenRingNightreign | 10,623 | 477.7 | 227.5 | 105 | 348 | 440 | 539 | 2,350 |
| SekiroShadowsDieTwice | 1,536 | 526.3 | 181.2 | 102 | 428 | 507 | 587 | 2,112 |
| 全局统计 | 43,448 | 481.2 | 185.0 | 72 | 379 | 463 | 541 | 2,350 |
使用方法
Python加载示例
python from datasets import load_dataset
dataset = load_dataset( "FelipeRochaMartins/SoulsWikiChunks", data_files="latest.json" )
构建段落列表示例
python all_passages = [] for project, project_chunks in payload.items(): for chunk_id, chunk_payload in project_chunks.items(): meta = chunk_payload.get("metadata", {}) all_passages.append({ "project": project, "chunk_id": chunk_id, "source_url": meta.get("source_url"), "category": meta.get("category"), "headline": meta.get("chunk_headline"), "content": chunk_payload.get("content", ""), })
数据来源与许可
- 来源: 基于Fextralife维基的原始爬取数据
- 上游依赖: https://huggingface.co/datasets/FelipeRochaMartins/SoulsWikiScrapping
- 许可条款:
- 署名-非商业性使用-相同方式共享 4.0
- 所有叙事内容归属于FromSoftware和相应维基贡献者
- 未经版权所有者许可不得用于商业目的
预期用途
- RAG系统构建
- 嵌入和向量存储
- 传说和叙事分析
- 评估和基准测试




