TopicNet/WikiRef-220

Name: TopicNet/WikiRef-220
Creator: TopicNet
Published: 2024-03-18 12:59:37
License: 暂无描述

Hugging Face2024-03-18 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/TopicNet/WikiRef-220

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en multilinguality: - monolingual license: other license_name: topicnet license_link: >- https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt configs: - config_name: "bag-of-words" default: true data_files: - split: train path: "data/wiki_ref220_bow.csv.gz" - config_name: "natural-order-of-words" data_files: - split: train path: "data/wiki_ref220_natural_order.csv.gz" task_categories: - text-classification task_ids: - topic-classification - multi-class-classification - multi-label-classification tags: - topic-modeling - topic-modelling - text-clustering - multimodal-data - multimodal-learning - modalities - document-representation --- # WikiRef220 ## References 1. Gialampoukidis, I., Vrochidis, S., & Kompatsiaris, I. (2016). A Hybrid Framework for News Clustering Based on the DBSCAN-Martingale and LDA. In Machine Learning and Data Mining in Pattern Recognition (pp. 170-184). Springer International Publishing.

语言： - 英语多语言属性： - 单语许可证：其他许可证名称：TopicNet 许可证链接：https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt 配置项： - 配置名称："词袋模型（bag-of-words）" 默认启用：是数据文件： - 拆分集：训练集路径："data/wiki_ref220_bow.csv.gz" - 配置名称："自然词序（natural-order-of-words）" 数据文件： - 拆分集：训练集路径："data/wiki_ref220_natural_order.csv.gz" 任务类别： - 文本分类（text-classification）任务子类型： - 主题分类（topic-classification） - 多类别分类（multi-class-classification） - 多标签分类（multi-label-classification）标签： - 主题建模（topic-modeling） - 主题建模（topic-modelling） - 文本聚类（text-clustering） - 多模态数据（multimodal-data） - 多模态学习（multimodal-learning） - 模态（modalities） - 文档表征（document-representation） # WikiRef220数据集 ## 参考文献 1. Gialampoukidis I, Vrochidis S, Kompatsiaris I. (2016). 基于DBSCAN-鞅与潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）的新闻聚类混合框架. 收录于《机器学习与数据挖掘在模式识别》（Machine Learning and Data Mining in Pattern Recognition）. 施普林格国际出版公司（Springer International Publishing）, 第170-184页.

提供机构：

TopicNet

原始信息汇总

数据集概述

基本信息

语言: 英语
多语言性: 单语种
许可证: topicnet
许可证链接: https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt

配置

配置1: bag-of-words
- 默认: 是
- 数据文件:
  - 分割: 训练
  - 路径: "data/wiki_ref220_bow.csv.gz"
配置2: natural-order-of-words
- 数据文件:
  - 分割: 训练
  - 路径: "data/wiki_ref220_natural_order.csv.gz"

任务类别

文本分类

任务ID

主题分类
多类别分类
多标签分类

TopicNet/WikiRef-220数据集的构建，采用自维基百科中提取的220个话题相关文档，其构建方式涵盖了词袋模型以及自然词序两种配置。词袋模型配置下，数据以向量化形式呈现，忽视了词序信息，而自然词序配置则保留了文本中的词序信息，以更贴近人类语言习惯的方式表征数据。

特点

该数据集独具特色，不仅包含了单一语言的单语种数据，还提供了两种不同的数据表征方式，即词袋模型和自然词序，为文本分类任务如话题分类、多类别分类及多标签分类提供了多元化的训练素材。此外，数据集遵循topicnet协议，且具备丰富的标注，为话题模型研究、文本聚类以及多模态学习等领域的研究提供了坚实的基础。

使用方法

用户在使用TopicNet/WikiRef-220数据集时，可根据具体任务需求选择词袋模型或自然词序配置的数据文件。数据以CSV格式压缩存储，可通过解压后直接加载至数据分析框架中，利用其提供的训练集进行模型训练。此外，用户需遵守数据集的许可协议，确保合法合规使用数据。

背景与挑战

背景概述

TopicNet/WikiRef-220数据集，诞生于2016年，由希腊雅典国立科技大学机器智能实验室的研究人员Gialampoukidis、Vrochidis和Kompatsiaris共同构建。该数据集针对文本分类领域，特别是话题分类、多类别分类以及多标签分类任务，提供了丰富的文本数据资源，对于推动文本聚类和主题模型的研究具有重要意义。

当前挑战

在构建过程中，该数据集的挑战主要体现在如何有效融合多种模态数据，以及如何从大规模文本数据中提取具有区分度的特征。此外，数据集在解决领域问题时，面临着如何准确识别和分类文本中的多主题，以及如何在保持数据质量的同时，处理和存储大量文本数据等挑战。

常用场景

经典使用场景

在文本分类与主题模型研究领域，TopicNet/WikiRef-220数据集被广泛用于训练模型以识别文档中的主题类别。其独特的bow（词袋模型）与natural-order（自然排序）配置，为研究者提供了处理文本数据的多样视角，进而优化模型的特征提取与分类性能。

衍生相关工作

基于该数据集的研究催生了众多经典工作，如Gialampoukidis等人在2016年的研究中，运用了DBSCAN-Martingale与LDA结合的框架进行新闻聚类，拓展了数据集的应用范围，并推动了主题模型与聚类算法的融合创新。

数据集最近研究