pietrolesci/dbpedia_14_indexed

Name: pietrolesci/dbpedia_14_indexed
Creator: pietrolesci
Published: 2023-05-11 13:34:45
License: 暂无描述

Hugging Face2023-05-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/dbpedia_14_indexed

下载链接

链接失效反馈

官方服务：

资源简介：

DBpedia数据集是一个用于文本分类任务的数据集，特别是主题分类。数据集的语言为英语，由众包创建，标注由机器生成。数据集的大小在10万到100万之间，是单语言的。数据集的特征包括标签、标题、内容、唯一标识符（uid）以及三种不同句子转换器的嵌入向量。数据集分为训练集和测试集，训练集包含56万个样本，测试集包含7万个样本。此外，该数据集与`dbpedia_14`数据集相同，但增加了唯一标识符和三种嵌入向量，并将`label`列重命名为`labels`以便更好地与transformers库兼容。

提供机构：

pietrolesci

原始信息汇总

数据集概述

基本信息

名称: DBpedia
语言: 英语 (en)
许可证: CC-BY-SA-3.0
多语言性: 单语种
大小: 100K<n<1M
数据来源: 原始数据
任务类别: 文本分类
任务ID: 主题分类

数据集特征

labels: 分类标签，包括以下类别：
- Company
- EducationalInstitution
- Artist
- Athlete
- OfficeHolder
- MeanOfTransportation
- Building
- NaturalPlace
- Village
- Animal
- Plant
- Album
- Film
- WrittenWork
title: 数据类型为字符串
content: 数据类型为字符串
uid: 唯一标识符，数据类型为整数
embedding_all-mpnet-base-v2: 序列数据，数据类型为浮点数
embedding_multi-qa-mpnet-base-dot-v1: 序列数据，数据类型为浮点数
embedding_all-MiniLM-L12-v2: 序列数据，数据类型为浮点数

数据集分割

训练集:
- 数据量: 560000个样本
- 字节数: 4490428970
测试集:
- 数据量: 70000个样本
- 字节数: 561310285

数据集大小

下载大小: 0
数据集总大小: 5051739255字节

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，DBpedia数据集作为结构化知识的重要载体，其构建过程体现了从维基百科中提取结构化信息的经典范式。该数据集通过自动化程序解析维基百科条目，将非结构化的文本内容转化为标准化的知识单元，并借助众包机制对实体类别进行人工标注，最终形成包含14个预定义类别的分类体系。每一数据条目均包含标题、内容文本及唯一标识符，确保了数据来源的可靠性与结构的完整性。

特点

DBpedia数据集的显著特征在于其融合了多维度语义表示与标准化分类框架。除基础的文本内容与类别标签外，该版本特别集成了三种预训练句嵌入向量，分别来自all-mpnet-base-v2、multi-qa-mpnet-base-dot-v1与all-MiniLM-L12-v2模型，为实体语义理解提供了丰富的向量化表征。数据集涵盖公司、教育机构、艺术作品等14个异构实体类别，共包含63万条样本，兼具规模性与类别平衡性，且通过唯一标识符设计增强了数据追踪与实验复现的便利性。

使用方法

在文本分类与语义检索任务中，该数据集可直接适配主流机器学习框架。用户可通过HuggingFace平台加载数据，利用预置的嵌入向量快速构建语义相似度计算或分类模型基线。对于迁移学习研究，嵌入列可作为特征输入供下游任务微调；而原始文本与标签对则适用于训练端到端的分类器。数据集的标准化拆分（训练集56万条、测试集7万条）支持模型性能的可靠评估，且其与Transformers库的兼容性设计简化了预处理流程。

背景与挑战

背景概述

DBpedia数据集作为语义网与知识图谱领域的重要基石，其构建始于2007年，由莱比锡大学、柏林自由大学以及曼海姆大学的研究团队联合发起。该数据集的核心研究问题在于如何从维基百科的结构化信息中自动抽取并组织知识，以形成机器可读的语义化资源。通过将维基百科条目转化为富含类别标签的实体描述，DBpedia极大地推动了自然语言处理、信息检索以及人工智能领域的发展，为知识驱动的应用提供了高质量的标注语料。

当前挑战

DBpedia数据集所解决的核心领域问题是文本的主题分类，其挑战在于对维基百科条目进行精准的多类别划分，涵盖从组织机构到文化作品等14个广泛领域，这要求模型具备深层次的语义理解与泛化能力。在构建过程中，挑战主要源于维基百科数据的异构性与动态更新特性，需要设计稳健的抽取机制以确保知识的一致性与完整性；同时，数据标注依赖于众包与自动生成相结合的方式，在规模扩展与质量把控之间寻求平衡亦非易事。

常用场景

经典使用场景

在知识图谱与自然语言处理领域，DBpedia数据集作为结构化百科知识的典范，其经典使用场景聚焦于文本分类任务。该数据集通过从维基百科提取的实体摘要，涵盖公司、教育机构、艺术家等14个类别，为研究者提供了大规模、高质量的标注语料。在机器学习模型训练中，它常被用于评估分类算法的性能，特别是多类别文本分类场景，帮助验证模型在真实世界知识条目上的泛化能力与准确性。

衍生相关工作

围绕DBpedia数据集衍生的经典工作丰富多样。早期研究如DBpedia本体构建项目，奠定了知识图谱抽取的基础框架；后续工作如基于深度学习的文本分类模型（如BERT变体）常以该数据集为基准进行性能比较。此外，它在多语言实体链接、知识图谱补全和语义相似度计算等任务中催生了系列创新方法，持续推动着知识驱动型人工智能研究的前沿进展。

数据集最近研究