five

TopicNet/WikiRef-220|文本分类数据集|主题建模数据集

收藏
hugging_face2024-03-18 更新2024-06-11 收录
文本分类
主题建模
下载链接:
https://hf-mirror.com/datasets/TopicNet/WikiRef-220
下载链接
链接失效反馈
资源简介:
WikiRef220数据集是一个单语种(英文)的文本分类数据集,专注于主题分类、多类分类和多标签分类。数据集提供了两种不同的配置文件,一种是基于bag-of-words的,另一种是基于natural-order-of-words的。该数据集适用于主题建模、文本聚类、多模态数据分析和文档表示研究。
提供机构:
TopicNet
原始信息汇总

数据集概述

基本信息

配置

  • 配置1: bag-of-words
    • 默认: 是
    • 数据文件:
      • 分割: 训练
      • 路径: "data/wiki_ref220_bow.csv.gz"
  • 配置2: natural-order-of-words
    • 数据文件:
      • 分割: 训练
      • 路径: "data/wiki_ref220_natural_order.csv.gz"

任务类别

  • 文本分类

任务ID

  • 主题分类
  • 多类别分类
  • 多标签分类

标签

  • 主题建模
  • 文本聚类
  • 多模态数据
  • 多模态学习
  • 模态
  • 文档表示
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录