fancyzhx/dbpedia_14

Name: fancyzhx/dbpedia_14
Creator: fancyzhx
Published: 2024-01-22 11:57:58
License: 暂无描述

Hugging Face2024-01-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fancyzhx/dbpedia_14

下载链接

链接失效反馈

官方服务：

资源简介：

DBpedia14数据集是一个用于文本分类的数据集，主要包含从DBpedia 2014中选取的14个非重叠类别的数据。数据集分为训练集和测试集，分别包含560,000和70,000个样本。每个数据点包含标题、内容和对应的标签。数据集主要用于文本分类任务，特别是主题分类。数据集的创建者Xiang Zhang，并且数据集在NIPS 2015的一篇论文中被用作文本分类的基准。

The DBpedia14 dataset is a text classification dataset that primarily contains data from 14 non-overlapping categories selected from DBpedia 2014. It is divided into training and test sets, with 560,000 and 70,000 samples respectively. Each data point includes a title, content, and its corresponding label. This dataset is mainly utilized for text classification tasks, particularly topic classification. It was created by Xiang Zhang and was adopted as a benchmark for text classification in a paper presented at NIPS 2015.

提供机构：

fancyzhx

原始信息汇总

数据集概述

数据集名称

名称: DBpedia14
别名: DBpedia

数据集属性

语言: 英语 (主要)
许可证: Creative Commons Attribution-ShareAlike 3.0 (cc-by-sa-3.0)
多语言性: 单语
大小: 100,000 < n < 1,000,000
来源: 原始数据
任务类型: 文本分类
任务ID: 主题分类

数据集结构

特征:
- label: 类别标签，包括14种不同的类别，如公司、教育机构等。
- title: 文档标题，字符串类型。
- content: 文档内容，字符串类型。
数据分割:
- 训练集: 560,000样本，178,428,970字节。
- 测试集: 70,000样本，22,310,285字节。

数据集创建

创建者: Xiang Zhang (xiang.zhang@nyu.edu)
创建理由: 用于文本分类的基准数据集，特别是在论文 "Character-level Convolutional Networks for Text Classification" 中使用。
源数据: 来自DBpedia (https://wiki.dbpedia.org/develop/datasets)

使用注意事项

许可证: 使用需遵守Creative Commons Attribution-ShareAlike 3.0和GNU Free Documentation License。
引用信息: 引用时需使用提供的引用格式。

搜集汇总

数据集介绍

构建方式

DBpedia14数据集是由Xiang Zhang构建的，该数据集从DBpedia 2014中选取了14个不重叠的类别。每个类别下随机选择了40,000个训练样本和5,000个测试样本，总计训练集规模为560,000个样本，测试集规模为70,000个样本。数据集包含标题、内容以及对应的标签，均采用字符串形式表示，其中标签对应于14个可能的主题类别。

特点

DBpedia14数据集的特点在于其专注于文本分类任务，提供的是单语种英文数据，尽管DBpedia本身是一个多语言的知识库。数据集采用Creative Commons Attribution-ShareAlike License和GNU Free Documentation License双许可，保证了数据的开放性和可用性。每个数据点由标题、内容和标签组成，为文本分类研究提供了丰富的样本资源。

使用方法

使用DBpedia14数据集时，用户可以从提供的训练集和测试集中进行数据加载和模型训练。数据集的结构允许用户轻松地将其用于文本分类任务，如根据文档的标题和内容预测正确的主题类别。用户应当遵循数据集的许可协议，并在使用数据集时正确引用相关文献。

背景与挑战

背景概述

DBpedia14数据集，源自于DBpedia知识库，由纽约大学的研究人员Xiang Zhang于2014年构建，旨在为文本分类任务提供基准。该数据集选取了DBpedia中的14个非重叠类别，每个类别分别随机抽取了40000个训练样本和5000个测试样本，总计包含560000个训练样本和70000个测试样本。数据集的核心研究问题是通过文档的标题和内容，预测其正确的主题类别。DBpedia14对相关领域的影响力体现在，它被广泛用作评估文本分类模型的性能，尤其是在字符级卷积网络在文本分类中的应用研究方面。

当前挑战

在数据集构建过程中，面临的挑战包括如何从DBpedia知识库中有效地抽取和分类数据，以及如何处理数据中的多语言现象。此外，数据集使用中存在的挑战包括如何处理潜在的偏见和敏感性信息，确保数据的使用不会引起社会负面影响，以及如何识别和讨论数据集中的潜在偏差和其他局限性。

常用场景

经典使用场景

在文本分类领域，DBpedia 14数据集被广泛用作基准测试，其经典使用场景是训练和评估文本分类模型，以实现对输入文本内容的主题类别预测。该数据集包含了14个非重叠的主题类别，涵盖了从公司、教育机构到自然地点、动植物等多种领域，为模型提供了多样化的训练样本。

衍生相关工作

基于DBpedia 14数据集，学术界衍生出了一系列相关工作，包括但不限于字符级卷积网络在文本分类中的应用研究，这些研究进一步拓展了文本分类技术的边界，并在多个任务中取得了显著的性能提升。

数据集最近研究