K-Namu-Full-Trainset

Hugging Face2025-08-02 更新2025-08-03 收录

下载链接：

https://huggingface.co/datasets/werty1248/K-Namu-Full-Trainset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于나무위키网站提取的韩国历史/文化/制度相关的问题和答案数据集。数据集包含了问题ID、问题类型、问题内容、选项、答案、难度和相关性等字段。数据集被用来训练模型理解和生成关于韩国历史/文化/制度的知识，并且提供了训练集。制作过程中使用了多种NLP模型来确保问题和答案的质量。

创建时间：

2025-07-23

原始信息汇总

数据集概述

基本信息

数据集名称: 나무위키 기반 한국 역사/문화/제도 관련 QA 데이터 셋
语言: 韩语 (ko)
下载大小: 19,974,029 字节
数据集大小: 36,233,166 字节
训练集样本数: 55,228 个

数据集结构

特征

id: 字符串类型，唯一标识符
type: 字符串类型，问题类型
question: 字符串类型，问题内容
choice: 字符串序列，选项（针对选择题）
answer: 字符串类型，答案
difficulty: 字符串类型，难度级别
relativity: 字符串类型，与韩国的相关性

数据划分

train: 包含55,228个样本，大小36,233,166字节

数据来源与制作方法

基础数据: 基于heegyu/namuwiki-extracted数据集
制作步骤:
1. 使用Qwen3-30B-A3B模型从565k个文档中筛选约55k个与韩国历史/文化/制度相关的文档并摘要。
2. 使用Gemini-2.5-flash模型生成选择题（5个选项）和简答题。
3. 仅保留DeepSeek-V3-0324模型能正确回答的问题。
4. 基于摘要生成描述性问题（如"XXX에 대해 자세히 알려주세요."）并与选择题和简答题合并。

其他信息

原始文档查找:
- 通过问题的id前缀查找对应的描述性问题（id为"{id}_서술_01"）。
- 描述性问题中的XXX或XXX/YYY对应原始나무위키文档名。
备注:
- 问题生成时包含难度(difficulty)和相关性(relativity)信息，但实际意义不大。

搜集汇总

数据集介绍

构建方式

在构建K-Namu-Full-Trainset数据集时，研究团队采用了多阶段筛选与生成的策略。基于heegyu/namuwiki-extracted语料库，首先利用Qwen3-30B-A3B模型从56.5万篇文档中筛选出约5.5万篇涉及韩国历史、文化和制度的文档并进行内容摘要。随后通过Gemini-2.5-flash模型生成多项选择题和简答题，并仅保留DeepSeek-V3-0324模型能够正确回答的问题。最后基于摘要内容生成描述性问题，与客观题共同构成完整的数据集。

使用方法

使用该数据集时，研究者可通过样本ID关联不同类型的问题，特别是描述性问题'XXX에 대해 자세히 알려주세요'可直接对应原始文档主题。数据集适用于韩国历史文化领域的问答系统训练、知识检索模型评估等场景。由于采用标准结构化格式存储，可直接加载至HuggingFace生态进行预处理，其中choice字段以字符串序列存储选项，answer字段包含标准答案，便于监督学习任务的开展。

背景与挑战

背景概述

K-Namu-Full-Trainset数据集是基于韩国历史、文化和制度相关知识的问答数据集，由先进的大语言模型辅助构建而成。该数据集依托于heegyu/namuwiki-extracted语料库，通过Qwen3-30B-A3B模型筛选出55k个相关文档并进行内容摘要，再借助Gemini-2.5-flash模型生成多项选择题和简答题。数据集的构建体现了知识抽取与问答系统研究的前沿方向，为韩国历史文化领域的自然语言处理任务提供了重要资源。

当前挑战

该数据集面临多重挑战：在领域问题方面，韩国历史文化知识的复杂性和专业性对问答系统的准确性和深度理解提出了较高要求；在构建过程中，依赖大语言模型自动生成题目可能导致知识覆盖不全面或存在偏差，且通过模型自验证（DeepSeek-V3-0324答对题目）的筛选机制可能引入模型特定偏好的局限性。此外，自动标注的难度等级和相关性指标的实际效用仍需进一步验证。

常用场景

经典使用场景

在韩国历史文化研究领域，K-Namu-Full-Trainset数据集以其丰富的问答对形式，为学者们提供了深入探究韩国历史、文化及制度的宝贵资源。该数据集通过多模型协作生成，涵盖了从客观选择题到主观简答题的多种题型，特别适合用于训练和评估自然语言处理模型在特定文化背景下的理解和生成能力。

解决学术问题

该数据集有效解决了跨文化自然语言处理中的领域适应性问题，尤其是在非英语语境下的知识问答系统开发。通过提供高质量的韩国历史文化相关问答对，研究人员能够更准确地评估模型在特定文化背景下的表现，进而推动多语言和多文化NLP技术的发展。

实际应用

在实际应用中，K-Namu-Full-Trainset数据集被广泛应用于韩国历史文化教育软件的开发，以及面向韩国游客的智能导游系统的训练。其丰富的文化内容和多样的题型设计，使得基于该数据集开发的系统能够提供更加精准和深入的文化解释和问答服务。

数据集最近研究