five

TopicNet/WikiRef-220

收藏
Hugging Face2024-03-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/WikiRef-220
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en multilinguality: - monolingual license: other license_name: topicnet license_link: >- https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt configs: - config_name: "bag-of-words" default: true data_files: - split: train path: "data/wiki_ref220_bow.csv.gz" - config_name: "natural-order-of-words" data_files: - split: train path: "data/wiki_ref220_natural_order.csv.gz" task_categories: - text-classification task_ids: - topic-classification - multi-class-classification - multi-label-classification tags: - topic-modeling - topic-modelling - text-clustering - multimodal-data - multimodal-learning - modalities - document-representation --- # WikiRef220 ## References 1. Gialampoukidis, I., Vrochidis, S., & Kompatsiaris, I. (2016). A Hybrid Framework for News Clustering Based on the DBSCAN-Martingale and LDA. In Machine Learning and Data Mining in Pattern Recognition (pp. 170-184). Springer International Publishing.

语言: - 英语 多语言属性: - 单语 许可证:其他 许可证名称:TopicNet 许可证链接:https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt 配置项: - 配置名称:"词袋模型(bag-of-words)" 默认启用:是 数据文件: - 拆分集:训练集 路径:"data/wiki_ref220_bow.csv.gz" - 配置名称:"自然词序(natural-order-of-words)" 数据文件: - 拆分集:训练集 路径:"data/wiki_ref220_natural_order.csv.gz" 任务类别: - 文本分类(text-classification) 任务子类型: - 主题分类(topic-classification) - 多类别分类(multi-class-classification) - 多标签分类(multi-label-classification) 标签: - 主题建模(topic-modeling) - 主题建模(topic-modelling) - 文本聚类(text-clustering) - 多模态数据(multimodal-data) - 多模态学习(multimodal-learning) - 模态(modalities) - 文档表征(document-representation) # WikiRef220数据集 ## 参考文献 1. Gialampoukidis I, Vrochidis S, Kompatsiaris I. (2016). 基于DBSCAN-鞅与潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的新闻聚类混合框架. 收录于《机器学习与数据挖掘在模式识别》(Machine Learning and Data Mining in Pattern Recognition). 施普林格国际出版公司(Springer International Publishing), 第170-184页.
提供机构:
TopicNet
原始信息汇总

数据集概述

基本信息

配置

  • 配置1: bag-of-words
    • 默认: 是
    • 数据文件:
      • 分割: 训练
      • 路径: "data/wiki_ref220_bow.csv.gz"
  • 配置2: natural-order-of-words
    • 数据文件:
      • 分割: 训练
      • 路径: "data/wiki_ref220_natural_order.csv.gz"

任务类别

  • 文本分类

任务ID

  • 主题分类
  • 多类别分类
  • 多标签分类

标签

  • 主题建模
  • 文本聚类
  • 多模态数据
  • 多模态学习
  • 模态
  • 文档表示
搜集汇总
数据集介绍
main_image_url
构建方式
TopicNet/WikiRef-220数据集的构建,采用自维基百科中提取的220个话题相关文档,其构建方式涵盖了词袋模型以及自然词序两种配置。词袋模型配置下,数据以向量化形式呈现,忽视了词序信息,而自然词序配置则保留了文本中的词序信息,以更贴近人类语言习惯的方式表征数据。
特点
该数据集独具特色,不仅包含了单一语言的单语种数据,还提供了两种不同的数据表征方式,即词袋模型和自然词序,为文本分类任务如话题分类、多类别分类及多标签分类提供了多元化的训练素材。此外,数据集遵循topicnet协议,且具备丰富的标注,为话题模型研究、文本聚类以及多模态学习等领域的研究提供了坚实的基础。
使用方法
用户在使用TopicNet/WikiRef-220数据集时,可根据具体任务需求选择词袋模型或自然词序配置的数据文件。数据以CSV格式压缩存储,可通过解压后直接加载至数据分析框架中,利用其提供的训练集进行模型训练。此外,用户需遵守数据集的许可协议,确保合法合规使用数据。
背景与挑战
背景概述
TopicNet/WikiRef-220数据集,诞生于2016年,由希腊雅典国立科技大学机器智能实验室的研究人员Gialampoukidis、Vrochidis和Kompatsiaris共同构建。该数据集针对文本分类领域,特别是话题分类、多类别分类以及多标签分类任务,提供了丰富的文本数据资源,对于推动文本聚类和主题模型的研究具有重要意义。
当前挑战
在构建过程中,该数据集的挑战主要体现在如何有效融合多种模态数据,以及如何从大规模文本数据中提取具有区分度的特征。此外,数据集在解决领域问题时,面临着如何准确识别和分类文本中的多主题,以及如何在保持数据质量的同时,处理和存储大量文本数据等挑战。
常用场景
经典使用场景
在文本分类与主题模型研究领域,TopicNet/WikiRef-220数据集被广泛用于训练模型以识别文档中的主题类别。其独特的bow(词袋模型)与natural-order(自然排序)配置,为研究者提供了处理文本数据的多样视角,进而优化模型的特征提取与分类性能。
衍生相关工作
基于该数据集的研究催生了众多经典工作,如Gialampoukidis等人在2016年的研究中,运用了DBSCAN-Martingale与LDA结合的框架进行新闻聚类,拓展了数据集的应用范围,并推动了主题模型与聚类算法的融合创新。
数据集最近研究
最新研究方向
近年来,随着文本分类和主题模型领域研究的不断深入,TopicNet/WikiRef-220数据集凭借其独特的构建方式和丰富的标注信息,成为学者们关注的焦点。该数据集支持多种任务类别,包括主题分类、多类分类和多标签分类等,使其在文本聚类和文档表示研究领域具有广泛的应用前景。目前,研究者们正致力于探索如何结合多模态数据和学习方法,以提高主题建模的准确性和效率,从而推动信息检索、自然语言处理等领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作