asahi417/multi-domain-document-classification
收藏Hugging Face2022-08-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/multi-domain-document-classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个领域的文档分类数据,具体包括生物医学领域的chemprot和rct-sample,计算机科学领域的citation_intent和sciie,客户评论领域的amcd和yelp_review,以及社交媒体领域的tweet_eval_irony、tweet_eval_hate和tweet_eval_emotion。其中,yelp_review数据集的测试、验证和训练集分别随机下采样至2000/2000/8000样本。
该数据集包含多个领域的文档分类数据,具体包括生物医学领域的chemprot和rct-sample,计算机科学领域的citation_intent和sciie,客户评论领域的amcd和yelp_review,以及社交媒体领域的tweet_eval_irony、tweet_eval_hate和tweet_eval_emotion。其中,yelp_review数据集的测试、验证和训练集分别随机下采样至2000/2000/8000样本。
提供机构:
asahi417
原始信息汇总
多领域文档分类数据集
数据集概述
该数据集包含多个领域的文档分类数据,具体包括:
- 生物医学:
chemprot,rct-sample - 计算机科学:
citation_intent,sciie - 客户评论:
amcd,yelp_review - 社交媒体:
tweet_eval_irony,tweet_eval_hate,tweet_eval_emotion
数据集详细信息
yelp_review数据集被随机下采样为 2000/2000/8000 用于测试/验证/训练。
数据集统计信息
以下是各数据集在不同阶段的实例和单词数量统计:
| chemprot | citation_intent | hyperpartisan_news | rct_sample | sciie | amcd | yelp_review | tweet_eval_irony | tweet_eval_hate | tweet_eval_emotion | |
|---|---|---|---|---|---|---|---|---|---|---|
| word/validation | 32 | 40 | 502 | 26 | 32 | 20 | 132 | 13 | 24 | 15 |
| word/test | 32 | 42 | 612 | 26 | 32 | 19 | 131 | 14 | 21 | 15 |
| word/train | 31 | 42 | 536 | 26 | 32 | 19 | 133 | 13 | 20 | 16 |
| instance/validation | 2427 | 114 | 64 | 30212 | 455 | 666 | 2000 | 955 | 1000 | 374 |
| instance/test | 3469 | 139 | 65 | 30135 | 974 | 1334 | 2000 | 784 | 2970 | 1421 |
| instance/train | 4169 | 1688 | 516 | 500 | 3219 | 8000 | 6000 | 2862 | 9000 | 3257 |



