MAdAiLab/patent_classification
收藏Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/MAdAiLab/patent_classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本和标签两个特征,其中文本特征为字符串类型,标签特征定义了8个技术领域类别。数据集分为训练集、验证集和测试集,分别有25000、5000和5000个样本。数据集的总下载大小为12067953字节,总数据集大小为24154688字节。
该数据集包含文本和标签两个特征,其中文本特征为字符串类型,标签特征定义了8个技术领域类别。数据集分为训练集、验证集和测试集,分别有25000、5000和5000个样本。数据集的总下载大小为12067953字节,总数据集大小为24154688字节。
提供机构:
MAdAiLab
原始信息汇总
数据集概述
数据集特征
- text:文本内容,数据类型为字符串。
- label:标签,数据类型为分类标签,具体分类包括:
- 0: Human Necessities
- 1: Performing Operations; Transporting
- 2: Chemistry; Metallurgy
- 3: Textiles; Paper
- 4: Fixed Constructions
- 5: Mechanical Engineering; Lightning; Heating; Weapons; Blasting
- 6: Physics
- 7: Electricity
- 8: General tagging of new or cross-sectional technology
数据集划分
- train:训练集,包含25000个样本,总大小为17225101字节。
- validation:验证集,包含5000个样本,总大小为3472854字节。
- test:测试集,包含5000个样本,总大小为3456733字节。
数据集大小
- 下载大小:12067953字节。
- 数据集总大小:24154688字节。
数据文件配置
- config_name:default
- data_files:
- train:路径为
data/train-* - validation:路径为
data/validation-* - test:路径为
data/test-*
- train:路径为



