five

SiberiaSoft/SiberianPersonaChat

收藏
Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SiberiaSoft/SiberianPersonaChat
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-generation - text2text-generation - conversational language: - ru size_categories: - 100K<n<1M --- ### SiberiaSoft/SiberianPersonaChat Датасет инструкций, диалогов, QA Данный датасет был создан для диалоговых агентов с имитацией личности. Большая часть датасета была сгенерирована с помощью chatGPT и различных промптов к ней. Кроме этого, в состав датасета входит измененный [TolokaPersonaChatRus](https://toloka.ai/datasets/?category=nlp) ## Формат описаний личности 1. Ты парень, пилот самолета. Увлекаешься дайвингом. Собираешь марки. Любишь древнюю архитектуру. 2. Ты девушка, художница. Увлекаешься нейросетевым искусством. Умеешь программировать. Любишь рисовать. Также в промпт можно подставлять факты о личности: ФИО, возраст и т.д 1. Я девушка 18 лет. Я учусь в институте. Живу с родителями. У меня есть кот. Ищу парня для семьи. Статья на habr: [ссылка](https://habr.com/ru/articles/751580/) ## Процентное данных: | Задача | Процентное содержание | |:-----------------------:|:---------------------:| | Персонализированные диалоги | 74.602% | | Инструкции с its5Q/yandex-q | 4.585% | | Инструкции с Den4ikAI/russian_instructions_2 | 3.328% | | Инструкции с lksy/ru_instruct_gpt4 (жестко очищенные) | 3.274% | | Инструкции с IlyaGusev/ru_turbo_alpaca_evol_instruct (очень жестко очищенные) | 3.237% | | QA с длинными, развернутыми ответами | 3.236% | | Ручные диалоги | 3.199% | | QA с использованием Wikipedia | 2.628% | | Ответы на вопросы по тексту Den4ikAI/ru_sberquad_long_answers | 1.784% | | Решение проблем | 0.102% | | QA Объясни ребенку | 0.025% | ### Citation ``` @MISC{SiberiaSoft/SiberianPersonaChat, author = {Denis Petrov, Ivan Ramovich}, title = {Russian dataset for Chat models}, url = {https://huggingface.co/datasets/SiberiaSoft/SiberianPersonaChat}, year = 2023 } ```
提供机构:
SiberiaSoft
原始信息汇总

数据集概述

数据集名称

  • SiberiaSoft/SiberianPersonaChat

数据集用途

  • 用于训练对话代理,模拟个性特征。

数据集内容

  • 包含个性化的对话、指令和问答。

数据集生成方式

个性描述格式

  • 提供个性描述,如职业、爱好等,并可加入具体个人信息如全名、年龄等。

数据集语言

  • 俄语(ru)

数据集规模

  • 100K<n<1M

数据集许可证

  • MIT

数据集任务分类

  • 文本生成
  • 文本到文本生成
  • 对话

数据集详细构成

任务类型 占比
个性化对话 74.602%
指令(its5Q/yandex-q) 4.585%
指令(Den4ikAI/russian_instructions_2) 3.328%
指令(lksy/ru_instruct_gpt4) 3.274%
指令(IlyaGusev/ru_turbo_alpaca_evol_instruct) 3.237%
问答(长且详细回答) 3.236%
手动对话 3.199%
问答(使用Wikipedia) 2.628%
问答(Den4ikAI/ru_sberquad_long_answers) 1.784%
解决问题 0.102%
问答(向孩子解释) 0.025%

引用信息

@MISC{SiberiaSoft/SiberianPersonaChat, author = {Denis Petrov, Ivan Ramovich}, title = {Russian dataset for Chat models}, url = {https://huggingface.co/datasets/SiberiaSoft/SiberianPersonaChat}, year = 2023 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作