five

NatCat

收藏
魔搭社区2024-08-29 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/NatCat
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: NatCat license: - CC0 1.0 paperUrl: https://arxiv.org/pdf/2009.14335v2.pdf publishDate: "2021" publishUrl: https://github.com/ZeweiChu/NatCat publisher: - University of Chicago - Toyota Technological Institute - Rutgers University tags: - Text taskTypes: - Text Classification --- # 数据集介绍 ## 简介 来自三个在线资源的通用文本分类数据集 (NatCat):Wikipedia、Reddit 和 Stack Exchange。这些数据集由源自社区自然发生的手动管理的文档-类别对组成。 ## 引文 ``` @article{chu2020natcat, title={NatCat: Weakly Supervised Text Classification with Naturally Annotated Resources}, author={Chu, Zewei and Stratos, Karl and Gimpel, Kevin}, journal={arXiv preprint arXiv:2009.14335}, year={2020} } ``` ## Download dataset :modelscope-code[]{type="git"}

数据集名称:NatCat 许可证:CC0 1.0 论文链接:https://arxiv.org/pdf/2009.14335v2.pdf 发布日期:2021年 项目主页:https://github.com/ZeweiChu/NatCat 发布机构:芝加哥大学、丰田技术研究所、罗格斯大学 标签:文本 任务类型:文本分类 --- # 数据集介绍 ## 简介 NatCat为通用文本分类数据集,取材自维基百科(Wikipedia)、红迪网(Reddit)与堆栈交换(Stack Exchange)三大在线平台。其数据由社区自然产生且经人工管理的文档-类别配对样本构成。 ## 引文 @article{chu2020natcat, title={NatCat: Weakly Supervised Text Classification with Naturally Annotated Resources}, author={Chu, Zewei and Stratos, Karl and Gimpel, Kevin}, journal={arXiv preprint arXiv:2009.14335}, year={2020} } ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作