job-skill-set|职位匹配数据集|技能提取数据集
收藏Job Skill Set 数据集
描述
Job Skill Set Dataset 是一个用于机器学习项目的专业数据集,主要用于职位匹配、技能提取和自然语言处理任务。该数据集包含了详细的职位信息、职位描述以及相关的技能集,适用于开发和评估职业推荐系统、简历解析和技能推断模型。
数据集来源
该数据集最初来源于 Kaggle 上的 LinkedIn Job Postings 数据集,由 Arshkon 提供。原始的职位数据通过 RecAI API services 进行了增强,提取了技能集。这些 API 专门用于技能解析、简历分析和其他招聘相关任务。
数据集结构
数据集包含以下特征:
- job_id: 每个职位发布的唯一标识符。
- category: 职位的类别,如信息技术、业务发展、财务、销售或人力资源。
- job_title: 职位名称。
- job_description: 职位的详细文本描述,包括职责和资格要求。
- job_skill_set: 与职位相关的技能列表(包括硬技能和软技能),通过 RecAI API 提取。
使用场景
该数据集特别适用于以下应用:
- 技能提取: 从职位描述中识别和解析技能。
- 职位-简历匹配: 将职位描述与潜在候选人简历进行匹配。
- 推荐系统: 开发基于所需技能推荐职位或培训项目的模型。
- 自然语言处理: 在招聘和职业分析中进行基于文本的模型实验。
许可证
请参考原始 Kaggle 数据集页面上的许可证信息 here。
引用
如果您使用此数据集,请按以下格式引用:
@dataset{batuhan_mutlu_2024_job_skill_set, title={Job Skill Set Dataset}, author={Batuhan Mutlu}, year={2024}, url={https://huggingface.co/datasets/batuhanmtl/job-skill-set}, note={Skill sets extracted using RecAI APIs} }

YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录