five

SoulsWikiChunks

收藏
Hugging Face2025-11-26 更新2025-11-27 收录
下载链接:
https://huggingface.co/datasets/FelipeRochaMartins/SoulsWikiChunks
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含Soulslike游戏系列相关文本块的数据集,适用于Retrieval-Augmented Generation (RAG) 系统。文本块是从原始的SoulsWikiScrapping数据集中提取的,并包含有关游戏剧情、角色、地点、物品等内容的描述。每个文本块都伴有详细的元数据信息,如来源URL、类别、标题等。
创建时间:
2025-11-23
原始信息汇总

Soulslike Wiki Chunks (RAG Corpus) 数据集概述

数据集基本信息

  • 许可证: CC BY-NC-SA 4.0
  • 任务类别: 文本生成、特征提取、文本检索、文本排序、句子相似性
  • 语言: 英语
  • 规模: 100K<n<1M
  • 标签: 魂类游戏、游戏、RPG、黑暗奇幻、传说、RAG、知识库、NLP、网络爬取、文本分块、段落、艾尔登法环、艾尔登法环影树之影、夜之统治、黑暗之魂、血源诅咒、只狼、恶魔之魂、Fextralife

数据集描述

该数据集包含从原始魂类维基爬取数据中提取的分块段落,专门为RAG系统优化,可直接用于向量存储、检索增强生成系统和微调工作流。

数据集结构

数据格式

  • 格式: 分层JSON快照
  • 顶层键: 游戏/项目标识符(如"Elden Ring"、"Bloodborne"等)
  • 第二层: 唯一标识每个段落的UUID

数据结构示例

json { "游戏名称": { "UUID": { "content": "段落内容", "metadata": { "raw_path": "原始文件路径", "project": "项目名称", "source_url": "源URL", "model": "生成模型ID", "category": "分类标签", "chunk_headline": "段落标题" } } } }

元数据字段

  • raw_path: 原始JSON文件相对路径
  • project: 游戏标识符
  • source_url: 原始维基URL
  • model: 生成或重写段落的模型标识符
  • category: 语义分类(共15个类别)
  • chunk_headline: 人类可读的段落标题

分类类别

LORE、LOCATION、NPC、BOSS、ENEMY、WEAPON、ARMOR、ACCESSORY、MAGIC_ABILITY、ITEM、MECHANIC、QUEST_GUIDE、BUILD_CLASS、OTHER

游戏覆盖范围

  • 艾尔登法环(包括影树之影和夜之统治)
  • 黑暗之魂三部曲
  • 血源诅咒
  • 只狼:影逝二度
  • 恶魔之魂

段落长度统计

各游戏段落内容长度统计(字符数)

游戏项目 数量 平均值 标准差 最小值 25%分位数 中位数 75%分位数 最大值
Bloodborne 2,085 500.7 179.8 137 406 480 550 2,044
DarkSouls 3,581 489.7 168.9 72 397 472 549 2,185
DarkSouls2 4,945 496.1 142.2 93 417 484 554 2,022
DarkSouls3 4,029 471.9 163.2 101 381 456 533 2,029
DemonsSouls 1,430 498.2 128.8 107 431 493 560 1,670
EldenRing 15,219 470.5 177.4 78 376 455 529 2,214
EldenRingNightreign 10,623 477.7 227.5 105 348 440 539 2,350
SekiroShadowsDieTwice 1,536 526.3 181.2 102 428 507 587 2,112
全局统计 43,448 481.2 185.0 72 379 463 541 2,350

使用方法

Python加载示例

python from datasets import load_dataset

dataset = load_dataset( "FelipeRochaMartins/SoulsWikiChunks", data_files="latest.json" )

构建段落列表示例

python all_passages = [] for project, project_chunks in payload.items(): for chunk_id, chunk_payload in project_chunks.items(): meta = chunk_payload.get("metadata", {}) all_passages.append({ "project": project, "chunk_id": chunk_id, "source_url": meta.get("source_url"), "category": meta.get("category"), "headline": meta.get("chunk_headline"), "content": chunk_payload.get("content", ""), })

数据来源与许可

  • 来源: 基于Fextralife维基的原始爬取数据
  • 上游依赖: https://huggingface.co/datasets/FelipeRochaMartins/SoulsWikiScrapping
  • 许可条款:
    • 署名-非商业性使用-相同方式共享 4.0
    • 所有叙事内容归属于FromSoftware和相应维基贡献者
    • 未经版权所有者许可不得用于商业目的

预期用途

  • RAG系统构建
  • 嵌入和向量存储
  • 传说和叙事分析
  • 评估和基准测试
搜集汇总
数据集介绍
main_image_url
构建方式
在电子游戏知识库构建领域,SoulsWikiChunks数据集通过层次化处理流程实现了原始数据的精细化重组。该数据集以Fextralife维基平台中《艾尔登法环》《黑暗之魂》等魂系游戏的原始维基页面为原料,采用先进的语言模型进行文本分块处理,每个文本块均配备完整的元数据体系,包括来源路径、游戏项目、语义分类等关键信息,最终形成包含四万余个标准段落的层次化JSON存储结构。
特点
该数据集展现出多维度的专业特性,其内容覆盖魂类游戏全系列作品,涵盖装备、敌人、任务等十余种语义分类。文本块长度经过标准化处理,中位字符数控制在463字左右,既保证信息完整性又符合检索系统输入规范。独特的元数据架构支持溯源查询与分类检索,UUID标识系统确保每个文本块的独立性与可追溯性,为知识检索系统提供精准的数据支撑。
使用方法
研究人员可通过HuggingFace数据集库直接加载该语料库,利用嵌套JSON结构逐层访问游戏项目下的文本块集合。典型应用场景包括构建向量数据库嵌入管道,将文本内容转化为稠密向量后建立语义索引;或用于检索增强生成系统,通过元数据过滤机制实现特定类别知识的精准检索。该数据集还可作为游戏叙事分析的基础语料,支持对角色、地点、物品等游戏要素的关联性研究。
背景与挑战
背景概述
在数字游戏文化蓬勃发展的背景下,SoulslikeWikiChunks数据集应运而生,由FelipeRochaMartins团队于当代构建,专门聚焦于魂类游戏的知识结构化。该数据集整合了《艾尔登法环》《黑暗之魂》系列等经典作品的维基文本,通过精细化分块处理,旨在解决游戏叙事碎片化与知识检索效率之间的核心矛盾。其创新性地将完整页面转化为检索增强生成系统适配的文本单元,为游戏语言学研究和智能对话系统提供了标准化语料基础,显著推动了沉浸式游戏体验与人工智能技术的交叉融合。
当前挑战
构建过程面临双重挑战:在领域问题层面,需克服魂类游戏特有的非线性叙事结构与庞杂术语体系,确保分块后的文本既能保留原初语境又具备独立语义完整性;在技术实现层面,原始维基数据的异构格式与跨游戏术语统一性要求对分块策略提出极高要求,需通过多轮迭代优化段落边界划分算法。同时,版权合规性与非商业用途限制进一步增加了数据清洗与标注的复杂度,要求构建流程在保持知识密度的同时严格遵循知识共享协议边界。
常用场景
经典使用场景
在游戏知识图谱构建领域,SoulsWikiChunks数据集通过结构化分块技术,将魂类游戏维基百科的原始页面转化为适合检索增强生成的文本段落。这些经过语义分类的段落涵盖武器、防具、敌人、任务等十余个垂直类别,为构建专业化问答系统提供了精准的语料基础。其标准化的元数据架构支持多游戏跨域检索,使研究者能够快速构建涵盖《艾尔登法环》《黑暗之魂》等经典作品的知识库体系。
衍生相关工作
基于该数据集衍生的经典研究包括跨游戏实体关系图谱构建、动态难度调整算法优化等方向。部分工作利用其分层标注体系开发了基于语义相似度的任务推荐系统,另一些研究则通过分析武器属性与敌人特征的关联规律,为游戏平衡性设计提供了数据驱动的新范式。这些衍生成果不仅丰富了游戏AI的研究维度,也为知识图谱在娱乐产业的应用开辟了新路径。
数据集最近研究
最新研究方向
在游戏叙事智能研究领域,SoulsWikiChunks数据集正推动知识密集型任务的前沿探索。其分块化处理的魂系游戏文本为检索增强生成系统提供了结构化语料,显著提升了游戏知识问答与剧情推理的准确性。当前研究聚焦于跨游戏实体关系挖掘,通过语义嵌入技术构建动态知识图谱,助力非线性叙事逻辑的可解释性分析。随着《艾尔登法环》DLC等新内容的持续注入,该数据集已成为测试大语言模型在复杂幻想世界观中认知能力的重要基准,为游戏人工智能与沉浸式交互体验研究开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作