TopicNet/NIPS
收藏Hugging Face2024-03-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/NIPS
下载链接
链接失效反馈官方服务:
资源简介:
NIPS数据集是一个英文单语数据集,主要用于文本分类任务,包括主题分类、多类分类和多标签分类。数据集包含7241个文档,模态字典大小为1.18333e+07,平均文档长度为1634.21个令牌,平均唯一令牌长度为644.49。文档长度在模态令牌中的统计信息也被提供,包括均值、标准差、最小值、25%、50%、75%和最大值。
NIPS数据集是一个英文单语数据集,主要用于文本分类任务,包括主题分类、多类分类和多标签分类。数据集包含7241个文档,模态字典大小为1.18333e+07,平均文档长度为1634.21个令牌,平均唯一令牌长度为644.49。文档长度在模态令牌中的统计信息也被提供,包括均值、标准差、最小值、25%、50%、75%和最大值。
提供机构:
TopicNet
原始信息汇总
NIPS 数据集概述
数据集基本信息
- 语言: 英语
- 多语言性: 单语种
- 许可证: other (topicnet)
- 任务类别: 文本分类
- 任务ID: 主题分类, 多类分类, 多标签分类
- 标签: 主题建模, 文本聚类, 多模态数据, 多模态学习, 模态, 文档表示
数据集特征
- 文档数量 (D): 7241
- 词模态字典大小 (@word W): 1.18333e+07
- 词模态平均文档长度 (@word len D): 1634.21
- 词模态平均文档唯一词长度 (@word len D uniq): 644.49
文档长度统计
- 总长度均值 (len_total@word): 1634.21
- 唯一词长度均值 (len_uniq@word): 644.49
- 总长度标准差: 481.923
- 唯一词长度标准差: 162.31
- 总长度最小值: 0
- 唯一词长度最小值: 0
- 总长度25%分位数: 1249
- 唯一词长度25%分位数: 524
- 总长度50%分位数: 1663
- 唯一词长度50%分位数: 641
- 总长度75%分位数: 1978
- 唯一词长度75%分位数: 755
- 总长度最大值: 6000
- 唯一词长度最大值: 1513
其他信息
- 该数据集有多个版本,用于其他研究工作。
搜集汇总
数据集介绍

背景与挑战
背景概述
TopicNet/NIPS是一个文本分类数据集,包含7,241篇NIPS会议论文,用于主题建模和多类/多标签分类任务。数据以csv格式提供,包含原始文本和词汇表示,平均文档长度约1,634个词符,适用于自然语言处理研究。
以上内容由遇见数据集搜集并总结生成



