asahi417/multi_domain_document_classification
收藏Hugging Face2022-08-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/multi_domain_document_classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多领域文档分类数据集,涵盖了生物医学、计算机科学、客户评论和社交媒体四个领域。具体数据集包括:生物医学领域的`chemprot`和`rct-sample`,计算机科学领域的`citation_intent`和`sciie`,客户评论领域的`amcd`和`yelp_review`,以及社交媒体领域的`tweet_eval_irony`、`tweet_eval_hate`和`tweet_eval_emotion`。其中,`yelp_review`数据集被随机下采样为2000/2000/8000的测试/验证/训练集。
该数据集是一个多领域文档分类数据集,涵盖了生物医学、计算机科学、客户评论和社交媒体四个领域。具体数据集包括:生物医学领域的`chemprot`和`rct-sample`,计算机科学领域的`citation_intent`和`sciie`,客户评论领域的`amcd`和`yelp_review`,以及社交媒体领域的`tweet_eval_irony`、`tweet_eval_hate`和`tweet_eval_emotion`。其中,`yelp_review`数据集被随机下采样为2000/2000/8000的测试/验证/训练集。
提供机构:
asahi417
原始信息汇总
数据集概述
数据集分类
- 生物医学:
chemprot,rct-sample - 计算机科学:
citation_intent,sciie - 客户评论:
amcd,yelp_review - 社交媒体:
tweet_eval_irony,tweet_eval_hate,tweet_eval_emotion
数据集详情
| 数据集名称 | 验证集实例数 | 测试集实例数 | 训练集实例数 |
|---|---|---|---|
| chemprot | 2427 | 3469 | 4169 |
| citation_intent | 114 | 139 | 1688 |
| hyperpartisan_news | 64 | 65 | 516 |
| rct_sample | 30212 | 30135 | 500 |
| sciie | 455 | 974 | 3219 |
| amcd | 666 | 1334 | 8000 |
| yelp_review | 2000 | 2000 | 6000 |
| tweet_eval_irony | 955 | 784 | 2862 |
| tweet_eval_hate | 1000 | 2970 | 9000 |
| tweet_eval_emotion | 374 | 1421 | 3257 |
特别说明
yelp_review数据集经过随机下采样,使得测试集、验证集和训练集的实例数分别为2000/2000/8000。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多领域文档分类数据集,覆盖生物医学、计算机科学、客户评论和社交媒体等多个领域,包含多个子数据集如chemprot和tweet_eval_emotion。数据集规模为22,623行,格式为JSON,仅提供测试集用于文本分类任务,标签范围从0到3,适用于评估分类模型在多领域文本上的性能。
以上内容由遇见数据集搜集并总结生成



