HDLTex/web_of_science

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/HDLTex/web_of_science

下载链接

链接失效反馈

资源简介：

Web of Science数据集包含三个子数据集：WOS-11967、WOS-46985和WOS-5736。每个数据集包含文本序列的输入数据（X.txt）、目标值（Y.txt）、一级标签（YL1.txt）和二级标签（YL2.txt）。WOS-5736数据集包含5,736个文档，分为11个类别，其中包括3个父类别。

提供机构：

HDLTex

原始信息汇总

Web of Science Dataset 概述

数据集配置

WOS5736

特征:
- input_data: 字符串类型
- label: 32位整数类型
- label_level_1: 32位整数类型
- label_level_2: 32位整数类型
分割:
- train: 8,051,533 字节, 5,736 个样本
下载大小: 60,222,421 字节
数据集大小: 8,051,533 字节

WOS11967

特征:
- input_data: 字符串类型
- label: 32位整数类型
- label_level_1: 32位整数类型
- label_level_2: 32位整数类型
分割:
- train: 16,248,391 字节, 11,967 个样本
下载大小: 60,222,421 字节
数据集大小: 16,248,391 字节

WOS46985

特征:
- input_data: 字符串类型
- label: 32位整数类型
- label_level_1: 32位整数类型
- label_level_2: 32位整数类型
分割:
- train: 65,471,726 字节, 46,985 个样本
下载大小: 60,222,421 字节
数据集大小: 65,471,726 字节

数据字段

WOS11967

input_data: 字符串特征
label: 32位整数特征
label_level_1: 32位整数特征
label_level_2: 32位整数特征

WOS46985

input_data: 字符串特征
label: 32位整数特征
label_level_1: 32位整数特征
label_level_2: 32位整数特征

WOS5736

input_data: 字符串特征
label: 32位整数特征
label_level_1: 32位整数特征
label_level_2: 32位整数特征

数据分割

名称	训练样本数
WOS11967	11,967
WOS46985	46,985
WOS5736	5,736

AI搜集汇总

数据集介绍

构建方式

HDLTex/web_of_science数据集的构建，旨在服务于文本分类任务，其核心在于通过层级化的深度学习方法对文本数据进行有效的标注与分类。该数据集由多个子数据集组成，包括WOS5736、WOS11967和WOS46985，分别包含5736、11967和46985个文档，每个文档都被标注为11个类别中的某一类，这些类别分为3个父类别和多个子类别。数据集的构建过程中，首先对原始文本数据进行收集和预处理，然后通过人工标注的方式完成对文本的类别标注，包括一级和二级标签的标注。

特点

HDLTex/web_of_science数据集的特点在于其数据的层级化结构，每个文档不仅有一个主要类别标签，还包含一级和二级标签，这为研究文本的细粒度分类提供了可能。此外，数据集规模适中，既包含了足够的样本量以保证模型的训练效果，又便于管理和处理。数据集的多样性也为模型提供了丰富的学习素材，有助于提高模型的泛化能力。

使用方法

使用HDLTex/web_of_science数据集时，用户首先需要根据数据集提供的 train split 进行模型的训练。数据集以文本格式存储，包括输入文本序列和对应的标签，用户需将这些数据转化为适合模型训练的格式。在模型训练过程中，可以利用数据集的一级和二级标签进行多任务学习，以提高分类的准确性。训练完成后，用户可以使用测试集来评估模型的性能，并进行必要的调优。

背景与挑战

背景概述

Web of Science Dataset（HDLTex/web_of_science）是由Kamran Kowsari等研究人员于2017年创建的文本分类数据集。该数据集源于科学文献领域，旨在通过层级深度学习模型对文本进行分类。数据集包含WOS-11967、WOS-46985和WOS-5736三个子集，分别包含不同数量的文档和分类标签，涵盖了从5736到46985不等的文档数量，以及从11个到更细致的二级分类标签。该数据集的创建对于提升文本分类模型的层级理解能力具有重要意义，对自然语言处理领域产生了显著影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1）确保数据的质量和一致性，因为数据来源于科学文献，涉及的专业领域广泛，分类标签的准确性至关重要；2）数据集的规模和多样性，如何平衡不同领域和分类级别之间的数据分布，以避免模型偏差；3）个人和敏感信息的处理，确保数据集在遵守隐私保护规定的同时，能够被广泛使用。在解决领域问题方面，数据集的挑战在于如何提高分类的准确性和层级标签的一致性，以及如何通过深度学习模型有效提取和利用文本中的层次化特征。

常用场景

经典使用场景

在文本分类领域，Web of Science Dataset以其丰富的文献数据及多级别标签体系，成为研究者们钟爱的实验数据集。该数据集最经典的使用场景在于，通过对文献内容的深度学习处理，实现对文本的精准分类，进而探究学术领域的知识结构及研究趋势。

实际应用

在实际应用中，Web of Science Dataset可用于学术搜索引擎的构建，帮助用户快速定位所需的研究领域；同时，它也为学术期刊的编辑和出版提供了辅助工具，通过自动分类稿件，提高工作效率。此外，在学术分析和知识图谱构建中，该数据集也是不可或缺的资源。

衍生相关工作

基于Web of Science Dataset的研究衍生出了众多相关工作，如HDLTex模型，该模型利用层级深度学习对文本进行分类，提升了分类性能。此外，研究者们还利用该数据集进行情感分析、主题模型等文本挖掘研究，推动了文本处理技术的进步。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集