dbpedia-vn

Hugging Face2025-03-09 更新2025-03-10 收录

下载链接：

https://huggingface.co/datasets/BaoLocTown/dbpedia-vn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个部分：corpus、default和queries。corpus部分包含文本信息及其原始版本，default部分包含查询和相关语料库的ID及评分信息，queries部分包含查询文本及其原始版本。corpus部分适用于文本分析，default部分适用于信息检索任务，queries部分适用于查询构建。

This dataset comprises three components: corpus, default, and queries. The corpus component contains textual information and its original version. The default component includes query IDs, relevant corpus IDs, and scoring information. The queries component contains query texts and their original versions. The corpus component is designed for textual analysis, the default component for information retrieval tasks, and the queries component for query construction.

创建时间：

2025-03-09

搜集汇总

数据集介绍

构建方式

dbpedia-vn数据集的构建主要基于越南语维基百科的内容。该数据集从维基百科抓取文本，包括页面标题（title）、正文（text）、原始标题（og_title）和原始文本（og_text）等字段，形成了丰富的文本资源。数据集分为三个配置：corpus、default和queries，分别对应不同的数据结构和用途。corpus配置包含了全部的文本数据，default配置则针对查询和相关性评分进行了设计，而queries配置则专注于查询文本的收集。

特点

该数据集的特点在于其涵盖了大量的越南语文本数据，为自然语言处理领域中的越南语相关任务提供了宝贵的资源。corpus配置的数据量达到了4635922条记录，而default配置的dev和test数据分别提供了4981和34570条查询与评分数据，queries配置则提供了380条训练查询数据。这些数据不仅包含了文本内容，还涉及了文本的原始来源信息，有助于研究文本的原始形态与转换形式之间的差异。

使用方法

在使用dbpedia-vn数据集时，用户可以根据不同的需求和任务选择相应的配置。corpus配置适合进行文本分析、信息抽取等任务；default配置适合进行信息检索、问答系统等任务，其中包含了查询文本和与之相关的评分信息；queries配置则适合于查询生成或查询理解相关的训练任务。用户需要先下载相应配置的数据文件，并根据数据集的 splits 信息组织训练、验证和测试集，以开展相应的自然语言处理研究。

背景与挑战

背景概述

dbpedia-vn数据集是越南语版本的DBpedia知识库，该数据集的创建旨在为自然语言处理、知识提取和语义检索等领域的研究提供基础资源。它由越南的自然语言处理团队于21世纪初构建，以促进多语言知识库的发展和应用。dbpedia-vn数据集整合了来自越南维基百科的丰富信息，包含了大量的实体和概念，对于推动越南语信息检索和知识图谱构建具有重大意义。

当前挑战

在构建dbpedia-vn数据集的过程中，研究人员面临了多语言处理和知识库构建的挑战，包括语言资源的稀缺性、实体识别和关系抽取的准确性问题。此外，数据集在解决领域问题，如文本分类、实体链接和问答系统等方面，也存在着如何提高召回率和精确率的挑战。同时，针对数据集的应用和扩展，如何保持数据质量和知识库的时效性也是当前面临的挑战之一。

常用场景

经典使用场景

在知识图谱领域，dbpedia-vn数据集作为一个富含越南语语料的资源，其经典使用场景主要在于自然语言处理任务中的信息抽取与实体识别。该数据集提供了大量的文本及对应的标题，为研究者构建模型以识别文本中的实体和抽取结构化信息提供了坚实基础。

衍生相关工作

基于dbpedia-vn数据集，学术界衍生出了一系列经典工作，包括但不限于跨语言信息检索模型的构建、知识图谱嵌入技术的研究以及多语言实体识别系统的开发。这些相关工作进一步拓展了dbpedia-vn数据集的应用范围，推动了自然语言处理领域的技术进步。

数据集最近研究