five

daswer123/job_classification_dataset_v2_ru

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/daswer123/job_classification_dataset_v2_ru
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru license: mit --- This dataset represents the classification of a profession by its name and description. Real resumes from hh.ru with additional anonymization were used to form the dataset. Claude 3 sonet was used for clasification. The total cost of training the dataset was about 500$ In this version, formation was done by chunks , and each new chunk was added to the RAG database, which the LLM received later, for more accurate classification. Данный датасет представляет с собой класификацию профессии по её названию и описанию. Для формирования датасета использовались реальные резюме из hh.ru с дополнительной анонимизацией. В этой версии формирование происходило чанками , и каждый новый чанк добавлялся в базу RAG, которую получала LLM в дальнейшем, для более точной классификации. Для класификации был использован claude 3 sonet. Общаяя стоимость обучения датасета составила около 1000$
提供机构:
daswer123
原始信息汇总

数据集概述

数据集内容

  • 该数据集用于职业名称和描述的分类。
  • 数据来源于hh.ru网站上的真实简历,经过额外匿名化处理。

数据集构建

  • 数据集通过分块(chunks)方式形成,每个新块被添加到RAG数据库中,供LLM后续使用以提高分类准确性。

分类工具

  • 使用Claude 3 sonet进行分类。

成本信息

  • 训练该数据集的总成本约为1000美元。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作