NatCat
收藏魔搭社区2024-08-29 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/NatCat
下载链接
链接失效反馈官方服务:
资源简介:
displayName: NatCat
license:
- CC0 1.0
paperUrl: https://arxiv.org/pdf/2009.14335v2.pdf
publishDate: "2021"
publishUrl: https://github.com/ZeweiChu/NatCat
publisher:
- University of Chicago
- Toyota Technological Institute
- Rutgers University
tags:
- Text
taskTypes:
- Text Classification
---
# 数据集介绍
## 简介
来自三个在线资源的通用文本分类数据集 (NatCat):Wikipedia、Reddit 和 Stack Exchange。这些数据集由源自社区自然发生的手动管理的文档-类别对组成。
## 引文
```
@article{chu2020natcat,
title={NatCat: Weakly Supervised Text Classification with Naturally Annotated Resources},
author={Chu, Zewei and Stratos, Karl and Gimpel, Kevin},
journal={arXiv preprint arXiv:2009.14335},
year={2020}
}
```
## Download dataset
:modelscope-code[]{type="git"}
数据集名称:NatCat
许可证:CC0 1.0
论文链接:https://arxiv.org/pdf/2009.14335v2.pdf
发布日期:2021年
项目主页:https://github.com/ZeweiChu/NatCat
发布机构:芝加哥大学、丰田技术研究所、罗格斯大学
标签:文本
任务类型:文本分类
---
# 数据集介绍
## 简介
NatCat为通用文本分类数据集,取材自维基百科(Wikipedia)、红迪网(Reddit)与堆栈交换(Stack Exchange)三大在线平台。其数据由社区自然产生且经人工管理的文档-类别配对样本构成。
## 引文
@article{chu2020natcat,
title={NatCat: Weakly Supervised Text Classification with Naturally Annotated Resources},
author={Chu, Zewei and Stratos, Karl and Gimpel, Kevin},
journal={arXiv preprint arXiv:2009.14335},
year={2020}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-09



