daswer123/job_classification_dataset_v2_ru
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/daswer123/job_classification_dataset_v2_ru
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
license: mit
---
This dataset represents the classification of a profession by its name and description. Real resumes from hh.ru with additional anonymization were used to form the dataset. Claude 3 sonet was used for clasification. The total cost of training the dataset was about 500$
In this version, formation was done by chunks , and each new chunk was added to the RAG database, which the LLM received later, for more accurate classification.
Данный датасет представляет с собой класификацию профессии по её названию и описанию. Для формирования датасета использовались реальные резюме из hh.ru с дополнительной анонимизацией.
В этой версии формирование происходило чанками , и каждый новый чанк добавлялся в базу RAG, которую получала LLM в дальнейшем, для более точной классификации.
Для класификации был использован claude 3 sonet. Общаяя стоимость обучения датасета составила около 1000$
提供机构:
daswer123
原始信息汇总
数据集概述
数据集内容
- 该数据集用于职业名称和描述的分类。
- 数据来源于hh.ru网站上的真实简历,经过额外匿名化处理。
数据集构建
- 数据集通过分块(chunks)方式形成,每个新块被添加到RAG数据库中,供LLM后续使用以提高分类准确性。
分类工具
- 使用Claude 3 sonet进行分类。
成本信息
- 训练该数据集的总成本约为1000美元。



