five

asahi417/multi-domain-document-classification

收藏
Hugging Face2022-08-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/multi-domain-document-classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个领域的文档分类数据,具体包括生物医学领域的chemprot和rct-sample,计算机科学领域的citation_intent和sciie,客户评论领域的amcd和yelp_review,以及社交媒体领域的tweet_eval_irony、tweet_eval_hate和tweet_eval_emotion。其中,yelp_review数据集的测试、验证和训练集分别随机下采样至2000/2000/8000样本。

该数据集包含多个领域的文档分类数据,具体包括生物医学领域的chemprot和rct-sample,计算机科学领域的citation_intent和sciie,客户评论领域的amcd和yelp_review,以及社交媒体领域的tweet_eval_irony、tweet_eval_hate和tweet_eval_emotion。其中,yelp_review数据集的测试、验证和训练集分别随机下采样至2000/2000/8000样本。
提供机构:
asahi417
原始信息汇总

多领域文档分类数据集

数据集概述

该数据集包含多个领域的文档分类数据,具体包括:

  • 生物医学chemprot, rct-sample
  • 计算机科学citation_intent, sciie
  • 客户评论amcd, yelp_review
  • 社交媒体tweet_eval_irony, tweet_eval_hate, tweet_eval_emotion

数据集详细信息

  • yelp_review 数据集被随机下采样为 2000/2000/8000 用于测试/验证/训练。

数据集统计信息

以下是各数据集在不同阶段的实例和单词数量统计:

chemprot citation_intent hyperpartisan_news rct_sample sciie amcd yelp_review tweet_eval_irony tweet_eval_hate tweet_eval_emotion
word/validation 32 40 502 26 32 20 132 13 24 15
word/test 32 42 612 26 32 19 131 14 21 15
word/train 31 42 536 26 32 19 133 13 20 16
instance/validation 2427 114 64 30212 455 666 2000 955 1000 374
instance/test 3469 139 65 30135 974 1334 2000 784 2970 1421
instance/train 4169 1688 516 500 3219 8000 6000 2862 9000 3257
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作