Vietnam-History-200K-Vi

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/minhxthanh/Vietnam-History-200K-Vi

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含约200,000个样本的越南语数据集，主题为越南历史，时间跨度从905年至2025年。数据集格式符合ShareGPT/ChatML的messages格式，样本包括带推理的样本和仅最终回答的样本，分别占大约78%和22%。问题多样，涵盖不同年份、事件、人物，以及原因和过程，还有对背景、发展过程和结果的总结。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

许可证类型: MIT
任务类别: 问答、文本生成
语言: 越南语（vi）
数据规模: 100K到1M之间

数据集内容

数据量: 200,000个样本
主题范围: 越南历史（905年至2025年），涵盖重要事件、人物、战役、文献、改革和时期
格式: 遵循ShareGPT/ChatML的消息格式
- 含推理过程样本（约78%）：system → user → assistant（analysis）→ assistant（final）
- 仅最终答案样本（约22%）：system → user → assistant（final）

问题多样性

按年份、事件、人物分类的问题
包含原因、过程分析类问题（如“为什么”、“怎么样”）
涵盖背景、过程、结果的总结性问题

相关资源

GitHub项目地址：https://github.com/MinhxThanh/Vietnam-History-Chat-Datasets

搜集汇总

数据集介绍

构建方式

在越南历史研究领域，Vietnam-History-200K-Vi数据集通过系统化采集公元905年至2025年间的历史事件、人物与文献资料，构建了涵盖20万条高质量样本的大规模语料库。数据严格遵循ShareGPT/ChatML消息格式进行结构化处理，其中约78%样本采用包含推理过程的四段式对话结构（system-user-assistant分析-assistant结论），其余22%样本采用简洁的三段式结论型对话（system-user-assistant结论），确保了历史知识的多维度呈现。

特点

该数据集显著特点体现在其时空跨度与主题深度，完整覆盖越南千余年历史中的重大战役、改革进程与文化变迁。问题设计兼具时序性与主题性，包含年份导向查询、人物事件分析、因果推理及背景-过程-结果综述等多类提问模式。语言表达纯正使用越南语，且通过双路径应答机制（推理链与直接结论）平衡思维深度与应答效率，为历史语义理解提供丰富的研究素材。

使用方法

研究者可借助该数据集训练具备历史推理能力的对话模型，通过解析system指令中的任务约束与user提问的历史语境，模型需生成包含分析过程的中间推理或直接输出最终结论。对于需深度推理的复杂历史问题，建议采用analysis-final双阶段输出模式以提升解释性；而对于事实型查询，final-only模式则可实现高效响应。数据集兼容主流的文本生成与问答训练框架，适用于历史教育辅助系统与时序知识推理研究。

背景与挑战

背景概述

越南历史研究作为东南亚区域研究的重要组成部分，长期面临着史料数字化与知识系统化的挑战。Vietnam-History-200K-Vi数据集由研究者Minhx Thanh于当代构建，专注于涵盖公元905年至2025年越南历史事件的问答与文本生成任务。该数据集以越南语呈现，包含二十万条结构化对话样本，旨在通过大语言模型技术实现历史知识的智能化处理与传播，为越南历史教育及文化传承提供高质量的数据支撑。

当前挑战

该数据集核心解决越南历史知识问答与推理生成的领域挑战，包括跨千年历史事件的时序对齐、多类型问题（如因果分析、人物事件关联）的语义理解，以及长上下文历史叙述的连贯生成。构建过程中面临史料多源异构整合、历史术语标准化、以及对话逻辑合理性验证等难题，需确保历史准确性同时满足语言模型训练的数据格式要求。

常用场景

经典使用场景

在越南历史研究领域，Vietnam-History-200K-Vi数据集被广泛用于训练和评估问答系统与文本生成模型。其精心设计的messages格式支持模型进行多步推理，既能处理需要分析过程的历史解释类问题，也能应对直接的事实性问答。该数据集覆盖从905年至2025年的历史事件、人物与变革，为模型提供了深度的时序和因果逻辑训练素材。

衍生相关工作

基于该数据集衍生的经典工作包括越南语历史知识图谱构建、时序敏感的问答模型以及多模态历史叙事生成系统。研究者进一步开发了针对历史事件因果推理的专用模型，并推动了越南语大语言模型在人文领域的垂直优化。相关成果已在低资源语言处理和历史计算语言学领域形成重要研究方向。

数据集最近研究