Ink-bai/MC-Wiki-Chinese
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Ink-bai/MC-Wiki-Chinese
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: Minecraft Wiki Chinese Dataset
license: apache-2.0
language:
- zh
tags:
- minecraft
- wiki
- rag
- question-answering
- information-retrieval
task_categories:
- question-answering
- text-retrieval
size_categories:
- 10K<n<100K
configs:
- config_name: original
data_files:
- split: train
path: original_dataset.json
- config_name: structured
data_files:
- split: train
path: structured_dataset.json
---
# Minecraft Wiki Chinese Dataset
这是一个基于中文 Minecraft Wiki 条目整理得到的数据集,适合用于 RAG、检索、知识库问答、文档结构化实验等任务。
数据集中包含两个版本:
- `original_dataset.json`:原始页面文本版本
- `structured_dataset.json`:按标题和条目做过轻量结构化处理的版本
当前两个文件都包含约 `8200` 条记录。
## Dataset Summary
本数据集来源于中文 Minecraft Wiki 页面内容抓取与整理,保留了页面标题与来源链接,并提供两种组织方式:
- 原始版适合直接做全文检索、切分、Embedding 和通用语料分析
- 结构化版适合做知识增强、分段索引、按章节召回和规则化处理
## Data Files
### 1. `original_dataset.json`
每条记录包含以下字段:
- `title`:页面标题
- `source_url`:原始页面链接
- `text`:页面正文文本
示例:
```json
{
"title": "0.1",
"source_url": "https://zh.minecraft.wiki/w/0.1",
"text": "0.1\n0.2→\n0.1可以指:..."
}
```
### 2. `structured_dataset.json`
每条记录包含以下字段:
- `title`:页面标题
- `source_url`:原始页面链接
- `structured_content`:按分类标题组织的结构化内容,值通常为 `dict[str, list[str]]`
示例:
```json
{
"title": "0.1",
"source_url": "https://zh.minecraft.wiki/w/0.1",
"structured_content": {
"Alpha": [
"Java版Alpha服务器0.1.0",
"Java版Alpha服务器0.1.1"
],
"启动器": [
"启动器0.1"
]
}
}
```
## Supported Configs
这个数据集卡已经为 Hugging Face `datasets` 配置了两个 config:
- `original`
- `structured`
加载方式示例:
```python
from datasets import load_dataset
original_ds = load_dataset("json", data_files="original_dataset.json", split="train")
structured_ds = load_dataset("json", data_files="structured_dataset.json", split="train")
```
也可按照 config 方式加载:
```python
from datasets import load_dataset
original_ds = load_dataset("Ink-bai/MC-Wiki-Chinese", name="original", split="train")
structured_ds = load_dataset("Ink-bai/MC-Wiki-Chinese", name="structured", split="train")
```
## Recommended Use
适合以下用途:
- Minecraft 知识库问答
- 中文游戏百科检索
- RAG 文档切分与召回实验
- 页面结构化抽取
- Embedding、reranker、检索链路评测
## Source
- 数据来源:中文 Minecraft Wiki
- 页面链接字段保存在 `source_url` 中
- 整理时间可按项目侧说明视为 `2026-04-22` 附近的数据快照
## Processing
处理流程大致如下:
1. 抓取中文 Minecraft Wiki 页面
2. 生成包含 `title`、`source_url`、`text` 的原始 JSON
3. 对原始文本进行轻量清洗与结构化
4. 生成包含 `structured_content` 的结构化 JSON
5. 将单页文件合并成两个总数据集文件
## Limitations
- 数据内容依赖原始 Wiki 页面,可能随时间发生变化
- 结构化版本使用的是轻量规则处理,不保证完全还原原页面层级
- 个别页面可能包含消歧义、模板残留、版本号条目或格式噪声
- 数据主要为中文内容,更适合中文检索和问答场景
## License and Attribution
This dataset repository is released under the Apache License 2.0 (`Apache-2.0`).
The dataset content is organized from Chinese Minecraft Wiki pages and preserves source links in the `source_url` field for attribution and traceability.
Recommended attribution:
- Dataset repository: `Ink-bai/MC-Wiki-Chinese`
- Original source: Chinese Minecraft Wiki
- Source URL: use the `source_url` field when citing individual entries
This repository license applies to the dataset packaging, processing scripts, and released dataset files in this repository. Users should also preserve source attribution when redistributing or using entries derived from the original wiki pages.
## Citation
如果你在研究或项目中使用了本数据集,建议同时引用:
- 中文 Minecraft Wiki 原始页面
- 本数据集仓库
提供机构:
Ink-bai



