kyleinincubated/autonlp-data-cat33
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kyleinincubated/autonlp-data-cat33
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为项目cat33自动处理的AutoNLP数据集,主要用于文本分类任务。数据集的语言为中文(BCP-47代码为zh)。数据集的每个实例包含两个字段:text(文本内容)和target(类别标签)。类别标签共有32个类别,涵盖了多个领域,如互联网服务、交通运输、休闲服务、传媒、信息技术等。数据集被分为训练集和验证集,训练集包含1836个样本,验证集包含460个样本。
提供机构:
kyleinincubated
原始信息汇总
数据集概述
数据集描述
语言
- 数据集的语言代码为zh,对应中文。
数据集结构
数据实例
- 数据集中的样本示例包含文本和目标字段,如: json [ { "text": ""u5341u56dbu4e94"u65f6u671fuff0cu4f9du6258u6d77u5357u5730u7406u533au4f4du4f18u52bfu548cu6d77u6d0bu8d44u6e90u4f18u52bfuff0cu52a0u5febu57f9u80b2u58eeu5927u6d77u6d0bu7ecfu6d4euff0cu62d3u5c55u6d77u5357u7ecfu6d4eu53d1u5c55u84ddu8272u7a7au95f4uff0cu5bf9u670du52a1u6d77u6d0bu5f3au56fdu6218u7565u3001u63a8u52a8u6d77u5357u81eau7531u8d38u6613u6e2fu5efau8bbeu53cau5b9eu73b0u81eau8eabu53d1u5c55u5177u6709u91cdu8981u610fu4e49", "target": 9 }, { "text": "u9010u6b65u5b9eu65bdu533bu7597u5668u68b0u552fu4e00u6807u8bc6uff0cu52a0u5f3au4e0eu533bu7597u7ba1u7406u3001u533bu4fddu7ba1u7406u7b49u8854u63a5", "target": 8 } ]
数据字段
- 数据集包含以下字段:
text: 文本内容,数据类型为字符串。target: 目标分类,类别数为32,类别名称包括但不限于“网络服务”、“交通出行”、“医疗服务”等。
数据分割
- 数据集分为训练集和验证集,具体分割如下:
- 训练集:1836样本
- 验证集:460样本



