TopicNet/WikiRef-220
收藏Hugging Face2024-03-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/WikiRef-220
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
license: other
license_name: topicnet
license_link: >-
https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt
configs:
- config_name: "bag-of-words"
default: true
data_files:
- split: train
path: "data/wiki_ref220_bow.csv.gz"
- config_name: "natural-order-of-words"
data_files:
- split: train
path: "data/wiki_ref220_natural_order.csv.gz"
task_categories:
- text-classification
task_ids:
- topic-classification
- multi-class-classification
- multi-label-classification
tags:
- topic-modeling
- topic-modelling
- text-clustering
- multimodal-data
- multimodal-learning
- modalities
- document-representation
---
# WikiRef220
## References
1. Gialampoukidis, I., Vrochidis, S., & Kompatsiaris, I. (2016). A Hybrid Framework for News Clustering Based on the DBSCAN-Martingale and LDA. In Machine Learning and Data Mining in Pattern Recognition (pp. 170-184). Springer International Publishing.
语言:
- 英语
多语言属性:
- 单语
许可证:其他
许可证名称:TopicNet
许可证链接:https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt
配置项:
- 配置名称:"词袋模型(bag-of-words)"
默认启用:是
数据文件:
- 拆分集:训练集
路径:"data/wiki_ref220_bow.csv.gz"
- 配置名称:"自然词序(natural-order-of-words)"
数据文件:
- 拆分集:训练集
路径:"data/wiki_ref220_natural_order.csv.gz"
任务类别:
- 文本分类(text-classification)
任务子类型:
- 主题分类(topic-classification)
- 多类别分类(multi-class-classification)
- 多标签分类(multi-label-classification)
标签:
- 主题建模(topic-modeling)
- 主题建模(topic-modelling)
- 文本聚类(text-clustering)
- 多模态数据(multimodal-data)
- 多模态学习(multimodal-learning)
- 模态(modalities)
- 文档表征(document-representation)
# WikiRef220数据集
## 参考文献
1. Gialampoukidis I, Vrochidis S, Kompatsiaris I. (2016). 基于DBSCAN-鞅与潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的新闻聚类混合框架. 收录于《机器学习与数据挖掘在模式识别》(Machine Learning and Data Mining in Pattern Recognition). 施普林格国际出版公司(Springer International Publishing), 第170-184页.
提供机构:
TopicNet
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语种
- 许可证: topicnet
- 许可证链接: https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt
配置
- 配置1: bag-of-words
- 默认: 是
- 数据文件:
- 分割: 训练
- 路径: "data/wiki_ref220_bow.csv.gz"
- 配置2: natural-order-of-words
- 数据文件:
- 分割: 训练
- 路径: "data/wiki_ref220_natural_order.csv.gz"
- 数据文件:
任务类别
- 文本分类
任务ID
- 主题分类
- 多类别分类
- 多标签分类
标签
- 主题建模
- 文本聚类
- 多模态数据
- 多模态学习
- 模态
- 文档表示
搜集汇总
数据集介绍

构建方式
TopicNet/WikiRef-220数据集的构建,采用自维基百科中提取的220个话题相关文档,其构建方式涵盖了词袋模型以及自然词序两种配置。词袋模型配置下,数据以向量化形式呈现,忽视了词序信息,而自然词序配置则保留了文本中的词序信息,以更贴近人类语言习惯的方式表征数据。
特点
该数据集独具特色,不仅包含了单一语言的单语种数据,还提供了两种不同的数据表征方式,即词袋模型和自然词序,为文本分类任务如话题分类、多类别分类及多标签分类提供了多元化的训练素材。此外,数据集遵循topicnet协议,且具备丰富的标注,为话题模型研究、文本聚类以及多模态学习等领域的研究提供了坚实的基础。
使用方法
用户在使用TopicNet/WikiRef-220数据集时,可根据具体任务需求选择词袋模型或自然词序配置的数据文件。数据以CSV格式压缩存储,可通过解压后直接加载至数据分析框架中,利用其提供的训练集进行模型训练。此外,用户需遵守数据集的许可协议,确保合法合规使用数据。
背景与挑战
背景概述
TopicNet/WikiRef-220数据集,诞生于2016年,由希腊雅典国立科技大学机器智能实验室的研究人员Gialampoukidis、Vrochidis和Kompatsiaris共同构建。该数据集针对文本分类领域,特别是话题分类、多类别分类以及多标签分类任务,提供了丰富的文本数据资源,对于推动文本聚类和主题模型的研究具有重要意义。
当前挑战
在构建过程中,该数据集的挑战主要体现在如何有效融合多种模态数据,以及如何从大规模文本数据中提取具有区分度的特征。此外,数据集在解决领域问题时,面临着如何准确识别和分类文本中的多主题,以及如何在保持数据质量的同时,处理和存储大量文本数据等挑战。
常用场景
经典使用场景
在文本分类与主题模型研究领域,TopicNet/WikiRef-220数据集被广泛用于训练模型以识别文档中的主题类别。其独特的bow(词袋模型)与natural-order(自然排序)配置,为研究者提供了处理文本数据的多样视角,进而优化模型的特征提取与分类性能。
衍生相关工作
基于该数据集的研究催生了众多经典工作,如Gialampoukidis等人在2016年的研究中,运用了DBSCAN-Martingale与LDA结合的框架进行新闻聚类,拓展了数据集的应用范围,并推动了主题模型与聚类算法的融合创新。
数据集最近研究
最新研究方向
近年来,随着文本分类和主题模型领域研究的不断深入,TopicNet/WikiRef-220数据集凭借其独特的构建方式和丰富的标注信息,成为学者们关注的焦点。该数据集支持多种任务类别,包括主题分类、多类分类和多标签分类等,使其在文本聚类和文档表示研究领域具有广泛的应用前景。目前,研究者们正致力于探索如何结合多模态数据和学习方法,以提高主题建模的准确性和效率,从而推动信息检索、自然语言处理等领域的进步。
以上内容由遇见数据集搜集并总结生成



