General-Knowledge-VI

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/Lvoxx/General-Knowledge-VI

下载链接

链接失效反馈

官方服务：

资源简介：

Lvoxx/General-Knowledge-VI 是一个双语（越南语-英语）通用知识数据集。该数据集源自原始数据集 'MuskumPillerum/General-Knowledge'，包含越南语和英语的问答对。数据集结构包含四列：'question'（越南语问题）、'answer'（越南语答案）、'question_en'（原始英语问题）和 'answer_en'（原始英语答案）。适用于多语言模型训练或 RAG 系统。数据集以 CSV 格式存储，训练集包含 37,635 个示例。采用 Apache 2.0 许可证，允许个人或商业用途的自由使用、修改和分发。

创建时间：

2026-01-16

原始信息汇总

数据集概述：Lvoxx/General-Knowledge-VI

基本信息

数据集名称: Lvoxx/General-Knowledge-VI
描述: 这是一个双语（越南语-英语）通用知识数据集。数据从原始数据集 MuskumPillerum/General-Knowledge 翻译和优化而来。其特点是保留了原始的英语问答对，并与越南语翻译并行，适用于多语言模型训练或RAG系统对比任务。
语言: 越南语 (vi)、英语 (en)
许可证: Apache License 2.0
任务类别: 问答、翻译
标签: 通用知识、越南语、双语、自然语言处理
规模分类: 10K < n < 100K
原始数据集: MuskumPillerum/General-Knowledge
创建者: Lvoxx (https://github.com/lvoxx)
处理流程: 数据经过自动翻译和校对，以确保越南语语境下通用知识术语的准确性。

数据详情

格式: CSV
配置名称: default
数据文件: data/train-*
下载大小: 16,290,597 字节
数据集大小: 31,125,680 字节
数据分割:
- 训练集 (train):
  - 样本数量: 37,635
  - 字节数: 31,125,680

数据结构

数据集包含4个主要列：

列名	描述
`question`	越南语问题。
`answer`	对应的越南语答案。
`question_en`	原始的英语问题。
`answer_en`	原始的英语答案。

数据示例

question	answer	question_en	answer_en
Hành tinh nào gần Mặt Trời nhất?	Sao Thủy là hành tinh nằm gần Mặt Trời nhất.	Which planet is closest to the Sun?	Mercury is the closest planet to the Sun.
Ai là người đã phát minh ra bóng đèn?	Thomas Edison thường được ghi danh là người phát minh ra bóng đèn điện.	Who invented the light bulb?	Thomas Edison is commonly credited with inventing the light bulb.

使用方法

使用 `pandas` 库

python import pandas as pd df = pd.read_csv("path/to/General-Knowledge-VI.csv") print(df.head())

使用 Hugging Face `datasets` 库

python from datasets import load_dataset dataset = load_dataset("Lvoxx/General-Knowledge-VI")

访问越南语数据

print(dataset[train][0][question])

许可声明

本数据集根据 Apache License 2.0 发布。您可以自由使用、修改和分发，用于个人或商业目的。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，双语知识库的构建对于跨语言模型训练至关重要。General-Knowledge-VI数据集源自MuskumPillerum/General-Knowledge这一英文通用知识库，通过自动化翻译与人工校对相结合的方式，将原始英文问答对精准转化为越南语版本，同时保留原始英文文本作为对照。这一过程确保了术语在越南语语境中的准确性，最终形成了包含超过三万七千个双语问答对的平行语料库，为多语言任务提供了高质量的基准数据。

特点

该数据集的核心特征在于其双语平行结构，每个样本均包含越南语与英语的完整问答对，实现了知识的无缝跨语言对齐。数据覆盖广泛的通用知识主题，从天文地理到历史发明，内容兼具多样性与代表性。其规模适中，介于一万至十万样本之间，既保证了数据的丰富性，又便于高效加载与处理。这种设计特别适合用于训练多语言问答系统、检索增强生成模型或进行跨语言知识迁移研究。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，便捷地访问训练分割中的双语字段。对于本地处理，数据集以CSV格式提供，可使用pandas等工具进行灵活读取与分析。典型应用场景包括：利用双语平行性训练或评估机器翻译模型；构建跨语言检索系统；或作为多语言语言模型的知识微调数据。其Apache 2.0许可证允许广泛的学术与商业用途，为自然语言处理社区提供了宝贵的资源。

背景与挑战

背景概述

在自然语言处理领域，双语知识库的构建对于推动跨语言理解与生成技术的发展至关重要。General-Knowledge-VI数据集由Lvoxx于2026年基于MuskumPillerum/General-Knowledge原始数据集编译而成，专注于提供越南语与英语对照的通用知识问答对。该数据集旨在服务于多语言模型训练及检索增强生成系统，通过精确的术语翻译与语境适配，为低资源语言处理研究提供了宝贵的语料支持，显著促进了东南亚语言人工智能应用的生态发展。

当前挑战

该数据集致力于解决跨语言知识问答与机器翻译的融合挑战，其核心在于确保专业术语在不同语言文化背景下的准确传递与语义一致性。构建过程中面临的主要困难包括自动化翻译产生的歧义消除，以及通用知识概念在越南语语境中的本土化表达校准，这些因素对数据质量与模型泛化能力构成了直接影响。

常用场景

经典使用场景

在自然语言处理领域，双语知识数据集为跨语言模型训练提供了关键资源。General-Knowledge-VI数据集以其精心构建的越南语-英语平行语料，成为多语言问答系统开发的经典基准。研究者常利用该数据集训练和评估机器翻译模型在知识密集型任务上的表现，同时它也为检索增强生成系统提供了高质量的对照语料，支持模型在双语环境下进行知识检索与答案生成。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，特别是在低资源语言神经机器翻译和跨语言预训练模型领域。研究者利用其平行语料探索了从英语到越南语的知识迁移方法，开发了针对越南语优化的BERT变体模型。此外，该数据集常被用作评估多语言问答系统在东南亚语言上性能的基准，催生了多项关于跨语言检索增强生成架构的创新研究，推动了双语自然语言处理技术的进步。

数据集最近研究

General-Knowledge-VI

数据集概述：Lvoxx/General-Knowledge-VI

基本信息

数据详情

数据结构

数据示例

使用方法

使用 pandas 库

使用 Hugging Face datasets 库

访问越南语数据

许可声明

使用 `pandas` 库

使用 Hugging Face `datasets` 库