Aiwensile2/Minecraft_QA-pairs_Instruction_Dataset
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Aiwensile2/Minecraft_QA-pairs_Instruction_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
size_categories:
- 100K<n<1M
---
## Overview
This repository contains a dataset designed for training large language models (LLMs) to handle a variety of questions related to Minecraft. Our dataset includes over 390,000 instruction entries generated using an LLM-assisted method. The dataset is designed to provide high-quality, diverse Q&A pairs, which are essential for effective model training.
## Usage
This dataset is an instruction dataset, and you can use it to train LLM in the way using the instruction dataset.
## Dataset Generation
### Data Collection and Cleaning
We utilized two primary sources of information:
1. **Minecraft Fandom Wiki** (https://minecraft.fandom.com/wiki/Minecraft_Wiki)
2. **Minecraft Wiki** (https://minecraft.wiki/)
For both sources, we performed extensive data cleaning to remove irrelevant sections, such as game version information, achievements, advancements, and history. The remaining content was extracted and stored in text (TXT) and markdown (MD) files, ensuring that only useful text and table content were retained.
### Q&A Pair Generation
Based on the cleaned data, we employed GPT-3.5-Turbo~\citep{chatgpt} with customized prompts to automatically generate diverse Q&A pairs. These pairs are categorized into four types:
1. **Short Answer Q&A**: Questions that can be directly answered with a word or phrase.
2. **Long Answer Q&A**: Questions that require one or more complete sentences for a comprehensive response.
3. **Boolean Answer Q&A**: Questions that can be answered with a simple True or False.
4. **Normal Answer Q&A**: General Q&A pairs with no specific form restrictions, ensuring the dataset's comprehensiveness.
## Details
### License
This dataset is made available under the [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/).
### DOI
10.5281/zenodo.11568799
license: CC BY 4.0
规模类别:
- 10万条 < n < 100万条
---
## 概述
本仓库包含一款专为训练大语言模型(Large Language Model,LLM)处理各类《我的世界》(Minecraft)相关问题而设计的数据集。本数据集包含超过39万条通过大语言模型辅助方法生成的指令条目,旨在提供高质量、多样化的问答对,这对高效的模型训练至关重要。
## 使用方式
本数据集属于指令微调数据集,可按照指令数据集的标准训练范式用于大语言模型的训练。
## 数据集构建
### 数据收集与清洗
我们依托两类核心信息源构建数据集:
1. **Minecraft Fandom Wiki**(https://minecraft.fandom.com/wiki/Minecraft_Wiki)
2. **Minecraft Wiki**(https://minecraft.wiki/)
针对这两类数据源,我们执行了全方位的数据清洗操作,移除了游戏版本信息、成就、进度以及历史记录等无关内容。随后提取剩余有效内容,并仅保留实用文本与表格内容,将其存储为纯文本(TXT)与Markdown(MD)格式文件。
### 问答对生成
基于清洗后的有效数据,我们采用GPT-3.5-Turbo并结合定制化提示词(prompt),自动生成多样化的问答对。本次生成的问答对共分为四类:
1. **短答案型问答**:仅需单个单词或短语即可直接作答的问题。
2. **长答案型问答**:需要一个或多个完整句子以给出全面回复的问题。
3. **布尔型问答**:仅需简单的“是”或“否”(对应原文True/False)即可作答的问题。
4. **通用型问答**:无特定格式限制的通用问答对,以保障数据集的全面性。
## 详细信息
### 许可证
本数据集采用[知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)](https://creativecommons.org/licenses/by/4.0/)进行发布。
### 数字对象标识符(DOI)
10.5281/zenodo.11568799
提供机构:
Aiwensile2
原始信息汇总
Minecraft 问答数据集
概述
该数据集旨在训练大型语言模型(LLMs)处理与Minecraft相关的各种问题。数据集包含超过390,000条指令条目,这些条目是通过LLM辅助方法生成的。数据集设计用于提供高质量、多样化的问答对,这对于有效的模型训练至关重要。
使用
该数据集是一个指令数据集,可用于训练LLM,类似于使用指令数据集的方式。
数据集生成
数据收集与清洗
数据收集主要基于以下两个来源:
- Minecraft Fandom Wiki
- Minecraft Wiki
对这两个来源进行了广泛的数据清洗,移除了不相关的部分,如游戏版本信息、成就、进展和历史。剩余的内容被提取并存储在文本(TXT)和Markdown(MD)文件中,确保只保留有用的文本和表格内容。
问答对生成
基于清洗后的数据,使用GPT-3.5-Turbo模型,通过自定义提示自动生成多样化的问答对。这些问答对分为以下四种类型:
- 简短回答问答:可以直接用一个词或短语回答的问题。
- 长回答问答:需要一个或多个完整句子进行全面回答的问题。
- 布尔回答问答:可以用简单的“真”或“假”回答的问题。
- 常规回答问答:没有特定形式限制的常规问答对,确保数据集的全面性。
详细信息
许可证
该数据集根据Creative Commons Attribution 4.0 International License发布。
DOI
10.5281/zenodo.11568799
搜集汇总
数据集介绍

构建方式
在数字游戏研究领域,高质量数据集的构建是推动大语言模型在特定领域应用的关键。本数据集通过系统化的数据收集与清洗流程,从Minecraft Fandom Wiki和Minecraft Wiki两个权威知识源提取核心内容,剔除了版本信息、成就记录等无关部分,保留了文本与表格形式的有效信息。随后,基于清洗后的数据,采用GPT-3.5-Turbo模型结合定制化提示词,自动生成了涵盖短答案、长答案、布尔答案及普通答案四类问答对,共计超过39万条指令条目,确保了数据内容的多样性与结构性。
特点
作为专注于Minecraft游戏的知识问答数据集,其显著特点在于规模庞大且类别分明。数据集囊括了短答案、长答案、布尔答案及普通答案四种问答类型,这种分类设计不仅覆盖了从简单事实查询到复杂解释性回答的多种需求,也为模型训练提供了层次化的学习目标。所有数据均源于经过严格清洗的官方Wiki资料,保证了知识来源的可靠性与准确性,同时通过大语言模型辅助生成,有效丰富了问答的表述方式和场景覆盖,为训练具备领域专长的大语言模型奠定了坚实基础。
使用方法
该数据集专为大语言模型的指令微调而设计,使用者可直接将其应用于模型的监督训练流程。在具体操作中,开发者可按照标准的指令数据集加载格式,将问答对以输入-输出的配对形式输入模型,通过优化模型参数使其学会理解并回应各类与Minecraft相关的查询。鉴于其清晰的分类结构,研究者亦可针对特定类型的问答能力进行针对性训练或评估。数据集采用CC BY-NC-SA 3.0许可协议,确保了在非商业用途下的共享与改编自由,为学术与开源社区的模型研发提供了便利资源。
背景与挑战
背景概述
随着大型语言模型在特定垂直领域应用的深化,构建高质量、领域相关的指令数据集成为提升模型专业能力的关键。Aiwensile2/Minecraft_QA-pairs_Instruction_Dataset应运而生,该数据集由研究团队于近期创建,旨在针对风靡全球的沙盒游戏《我的世界》构建一个大规模的问答对指令集。其核心研究问题聚焦于如何利用自动化方法,从游戏维基百科等结构化知识源中,生成多样且准确的问答数据,以专门训练语言模型理解和回应复杂的游戏相关查询。这一工作对推动语言模型在游戏交互、教育娱乐等垂直场景的实用化具有显著影响力。
当前挑战
该数据集致力于解决游戏领域知识问答的挑战,其核心在于如何让语言模型精准理解并生成涉及游戏机制、物品合成、生物行为等专业且动态变化的复杂知识。在构建过程中,挑战主要体现在两方面:一是数据清洗的复杂性,需要从原始维基页面中精准剥离版本信息、历史记录等无关内容,保留纯净的核心知识文本;二是自动化生成问答对的质量控制,需通过精心设计的提示工程引导大语言模型产出涵盖短答案、长答案、布尔型及通用型等多种形式的问答,同时确保答案的准确性与多样性,避免生成内容的重复或偏差。
常用场景
经典使用场景
在自然语言处理领域,指令微调已成为提升大型语言模型适应特定领域能力的关键技术。Aiwensile2/Minecraft_QA-pairs_Instruction_Dataset作为一款专注于《我的世界》游戏知识的指令数据集,其最经典的使用场景在于为大型语言模型提供高质量、多样化的问答对进行监督微调。通过涵盖短答案、长答案、布尔答案及常规答案等多种问答类型,该数据集能够系统性地训练模型理解并生成与游戏机制、物品合成、生物行为等相关的精确回复,从而显著增强模型在垂直领域的知识掌握与对话交互能力。
解决学术问题
该数据集有效应对了学术研究中垂直领域知识匮乏与指令数据质量参差不齐的挑战。通过基于《我的世界》官方Wiki的清洗数据与LLM辅助生成方法,它提供了大规模、结构化的领域知识问答对,为研究社区探索领域自适应学习、少样本泛化以及指令遵循的评估基准提供了宝贵资源。其意义在于推动了语言模型从通用对话向专业领域深度应用的转变,为游戏人工智能、教育技术等交叉学科的研究奠定了数据基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在领域自适应微调方法与指令生成技术的优化上。研究者们借鉴其构建范式,扩展至其他游戏或专业领域,开发了类似的指令数据集以验证模型迁移能力。同时,基于其多类型问答结构,后续研究进一步探索了答案质量评估、幻觉检测以及跨语言泛化等前沿课题,推动了指令数据构建标准与评估体系的发展。
以上内容由遇见数据集搜集并总结生成



