Shawn0069/resume_classification_kaggle
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shawn0069/resume_classification_kaggle
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: ID
dtype: int64
- name: Resume_str
dtype: string
- name: Resume_html
dtype: string
- name: Category
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 43644580
num_examples: 1987
- name: test
num_bytes: 11175285
num_examples: 497
- name: validation
num_bytes: 11175285
num_examples: 497
download_size: 24410997
dataset_size: 65995150
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
- split: validation
path: data/validation-*
---
数据集信息:
特征:
- 名称:ID,数据类型:64位整数(int64)
- 名称:Resume_str,数据类型:字符串(string)
- 名称:Resume_html,数据类型:字符串(string)
- 名称:Category,数据类型:字符串(string)
- 名称:__index_level_0__,数据类型:64位整数(int64)
数据集拆分:
- 拆分名称:train(训练集),占用字节数:43644580,样本数量:1987
- 拆分名称:test(测试集),占用字节数:11175285,样本数量:497
- 拆分名称:validation(验证集),占用字节数:11175285,样本数量:497
下载总大小:24410997 字节,数据集总存储大小:65995150 字节
配置项:
- 配置名称:default(默认配置)
数据文件:
- 拆分:train(训练集),路径:data/train-*
- 拆分:test(测试集),路径:data/test-*
- 拆分:validation(验证集),路径:data/validation-*
提供机构:
Shawn0069
原始信息汇总
数据集信息
特征
- ID: 数据类型为
int64 - Resume_str: 数据类型为
string - Resume_html: 数据类型为
string - Category: 数据类型为
string - index_level_0: 数据类型为
int64
数据分割
- train: 包含 1987 个样本,总字节数为 43644580
- test: 包含 497 个样本,总字节数为 11175285
- validation: 包含 497 个样本,总字节数为 11175285
数据大小
- 下载大小: 24410997 字节
- 数据集大小: 65995150 字节
配置
- default 配置包含以下数据文件路径:
- train:
data/train-* - test:
data/test-* - validation:
data/validation-*
- train:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个简历分类数据集,包含约3,000份简历的文本信息和分类标签。数据集采用表格和文本形式存储,已转换为parquet格式,适用于自然语言处理和分类任务。数据已分为训练、验证和测试集,便于模型开发和评估。
以上内容由遇见数据集搜集并总结生成



