five

justpyschitry/autotrain-data-Wikipeida_Article_Classifier_by_Chap

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/justpyschitry/autotrain-data-Wikipeida_Article_Classifier_by_Chap
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为项目Wikipeida_Article_Classifier_by_Chap自动处理的,用于文本分类任务。数据集的语言为英语,包含文本和对应的目标类别,目标类别共有20个,涵盖了多种疾病和健康相关条件。数据集分为训练集和验证集,分别包含9828和2468个样本。
提供机构:
justpyschitry
原始信息汇总

AutoTrain Dataset for project: Wikipeida_Article_Classifier_by_Chap

数据集描述

该数据集由AutoTrain自动处理,用于项目Wikipeida_Article_Classifier_by_Chap。

语言

数据集的语言BCP-47代码为en。

数据集结构

数据实例

数据集的一个样本如下:

json [ { "text": "diffuse actinic keratinocyte dysplasia", "target": 15 }, { "text": "cholesterol atheroembolism", "target": 8 } ]

数据集字段

数据集包含以下字段(也称为“特征”):

json { "text": "Value(dtype=string, id=None)", "target": "ClassLabel(num_classes=20, names=[Certain infectious or parasitic diseases, Developmental anaomalies, Diseases of the blood or blood forming organs, Diseases of the genitourinary system, Mental behavioural or neurodevelopmental disorders, Neoplasms, certain conditions originating in the perinatal period, conditions related to sexual health, diseases of the circulatroy system, diseases of the digestive system, diseases of the ear or mastoid process, diseases of the immune system, diseases of the musculoskeletal system or connective tissue, diseases of the nervous system, diseases of the respiratory system, diseases of the skin, diseases of the visual system, endocrine nutritional or metabolic diseases, pregnanacy childbirth or the puerperium, sleep-wake disorders], id=None)" }

数据集分割

数据集被分为训练集和验证集。分割大小如下:

分割名称 样本数量
train 9828
valid 2468
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作