five

asahi417/multi_domain_document_classification

收藏
Hugging Face2022-08-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/multi_domain_document_classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多领域文档分类数据集,涵盖了生物医学、计算机科学、客户评论和社交媒体四个领域。具体数据集包括:生物医学领域的`chemprot`和`rct-sample`,计算机科学领域的`citation_intent`和`sciie`,客户评论领域的`amcd`和`yelp_review`,以及社交媒体领域的`tweet_eval_irony`、`tweet_eval_hate`和`tweet_eval_emotion`。其中,`yelp_review`数据集被随机下采样为2000/2000/8000的测试/验证/训练集。

该数据集是一个多领域文档分类数据集,涵盖了生物医学、计算机科学、客户评论和社交媒体四个领域。具体数据集包括:生物医学领域的`chemprot`和`rct-sample`,计算机科学领域的`citation_intent`和`sciie`,客户评论领域的`amcd`和`yelp_review`,以及社交媒体领域的`tweet_eval_irony`、`tweet_eval_hate`和`tweet_eval_emotion`。其中,`yelp_review`数据集被随机下采样为2000/2000/8000的测试/验证/训练集。
提供机构:
asahi417
原始信息汇总

数据集概述

数据集分类

  • 生物医学chemprot, rct-sample
  • 计算机科学citation_intent, sciie
  • 客户评论amcd, yelp_review
  • 社交媒体tweet_eval_irony, tweet_eval_hate, tweet_eval_emotion

数据集详情

数据集名称 验证集实例数 测试集实例数 训练集实例数
chemprot 2427 3469 4169
citation_intent 114 139 1688
hyperpartisan_news 64 65 516
rct_sample 30212 30135 500
sciie 455 974 3219
amcd 666 1334 8000
yelp_review 2000 2000 6000
tweet_eval_irony 955 784 2862
tweet_eval_hate 1000 2970 9000
tweet_eval_emotion 374 1421 3257

特别说明

  • yelp_review 数据集经过随机下采样,使得测试集、验证集和训练集的实例数分别为2000/2000/8000。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多领域文档分类数据集,覆盖生物医学、计算机科学、客户评论和社交媒体等多个领域,包含多个子数据集如chemprot和tweet_eval_emotion。数据集规模为22,623行,格式为JSON,仅提供测试集用于文本分类任务,标签范围从0到3,适用于评估分类模型在多领域文本上的性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作