Kirili4ik/yandex_jobs
收藏Hugging Face2022-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Kirili4ik/yandex_jobs
下载链接
链接失效反馈官方服务:
资源简介:
Yandex_Jobs数据集包含超过600个俄罗斯IT职位的招聘信息,这些信息是从Telegram频道https://t.me/ya_jobs解析得到的。所有文本都经过良好结构化处理,没有缺失值。数据集支持的任务包括文本生成、摘要生成和多选任务。数据集的语言仅为俄语,数据实例包括职位标题、表情符号、职位描述、要求、任务、加分项、标签、链接和原始文本等字段。数据集创建于2022年9月3日,解析自Telegram频道,并删除了未解析或缺失字段的示例。使用该数据集时需要注意,这些职位信息仅针对一家IT公司(Yandex),因此可能具有特定性,不能泛化为任何职位或IT职位。
提供机构:
Kirili4ik
原始信息汇总
数据集概述
数据集基本信息
- 名称: Yandex_Jobs
- 语言: 仅含俄语 (
ru) - 许可证: 未知
- 数据来源: 原始数据,从Telegram频道https://t.me/ya_jobs解析获取
- 数据集大小: 小于1000条记录
- 标签: 职位空缺, 工作, 俄语, Yandex
数据集内容
数据集摘要
- 描述: 包含超过600个来自Yandex的IT职位空缺,数据来源于Telegram频道https://t.me/ya_jobs。所有文本结构良好,无缺失值。
支持的任务和排行榜
- 任务: 文本生成, 摘要提取, 多选题
- 示例任务:
- 文本生成: 使用原始文本列进行
- 摘要提取: 从所有信息中提取标题
- 多选题: 从数据集中选择多个可用标签
数据集结构
数据实例
-
来源: 解析自俄罗斯IT公司Yandex的职位空缺
-
示例结构:
{ Header: 职位标题, Emoji: 职位相关的表情符号, Description: 职位简短描述, Requirements: 职位要求的技术/编程语言/经验, Tasks: 职位任务示例, Pluses: 申请者的加分项, Hashtags: 与职位相关的标签, Link: 职位描述链接, Raw text: 包含所有格式的原始文本 }
数据字段
- 字段描述:
Header: 职位标题 (字符串)Emoji: 职位标题后的表情符号 (字符串)Description: 职位简短描述 (字符串)Requirements: 职位要求的技术/编程语言/经验 (字符串)Tasks: 职位任务示例 (字符串)Pluses: 申请者的加分项 (字符串)Hashtags: 与职位相关的标签 (字符串)Link: 职位描述链接 (字符串)Raw text: 包含所有格式的原始文本 (字符串)
数据分割
- 当前状态: 由于样本数量不足,尚未进行训练/测试/验证分割。
数据集创建
- 创建日期: 2022年9月3日
- 数据清理: 从1600个职位空缺中筛选出600个无缺失字段的记录
使用数据集的注意事项
- 数据局限性: 数据集仅包含Yandex公司的职位空缺,可能较为特定,不易推广至其他职位或IT职位。
贡献者
- 联系人和作者: [Kirill Gelvan](telegram: @kirili4ik)



