five

TopicNet/NIPS

收藏
Hugging Face2024-03-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/NIPS
下载链接
链接失效反馈
官方服务:
资源简介:
NIPS数据集是一个英文单语数据集,主要用于文本分类任务,包括主题分类、多类分类和多标签分类。数据集包含7241个文档,模态字典大小为1.18333e+07,平均文档长度为1634.21个令牌,平均唯一令牌长度为644.49。文档长度在模态令牌中的统计信息也被提供,包括均值、标准差、最小值、25%、50%、75%和最大值。

NIPS数据集是一个英文单语数据集,主要用于文本分类任务,包括主题分类、多类分类和多标签分类。数据集包含7241个文档,模态字典大小为1.18333e+07,平均文档长度为1634.21个令牌,平均唯一令牌长度为644.49。文档长度在模态令牌中的统计信息也被提供,包括均值、标准差、最小值、25%、50%、75%和最大值。
提供机构:
TopicNet
原始信息汇总

NIPS 数据集概述

数据集基本信息

  • 语言: 英语
  • 多语言性: 单语种
  • 许可证: other (topicnet)
  • 任务类别: 文本分类
  • 任务ID: 主题分类, 多类分类, 多标签分类
  • 标签: 主题建模, 文本聚类, 多模态数据, 多模态学习, 模态, 文档表示

数据集特征

  • 文档数量 (D): 7241
  • 词模态字典大小 (@word W): 1.18333e+07
  • 词模态平均文档长度 (@word len D): 1634.21
  • 词模态平均文档唯一词长度 (@word len D uniq): 644.49

文档长度统计

  • 总长度均值 (len_total@word): 1634.21
  • 唯一词长度均值 (len_uniq@word): 644.49
  • 总长度标准差: 481.923
  • 唯一词长度标准差: 162.31
  • 总长度最小值: 0
  • 唯一词长度最小值: 0
  • 总长度25%分位数: 1249
  • 唯一词长度25%分位数: 524
  • 总长度50%分位数: 1663
  • 唯一词长度50%分位数: 641
  • 总长度75%分位数: 1978
  • 唯一词长度75%分位数: 755
  • 总长度最大值: 6000
  • 唯一词长度最大值: 1513

其他信息

  • 该数据集有多个版本,用于其他研究工作。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TopicNet/NIPS是一个文本分类数据集,包含7,241篇NIPS会议论文,用于主题建模和多类/多标签分类任务。数据以csv格式提供,包含原始文本和词汇表示,平均文档长度约1,634个词符,适用于自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作