SiberiaSoft/SiberianPersonaChat
收藏Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SiberiaSoft/SiberianPersonaChat
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
- text2text-generation
- conversational
language:
- ru
size_categories:
- 100K<n<1M
---
### SiberiaSoft/SiberianPersonaChat
Датасет инструкций, диалогов, QA
Данный датасет был создан для диалоговых агентов с имитацией личности.
Большая часть датасета была сгенерирована с помощью chatGPT и различных промптов к ней. Кроме этого, в состав датасета входит измененный [TolokaPersonaChatRus](https://toloka.ai/datasets/?category=nlp)
## Формат описаний личности
1. Ты парень, пилот самолета. Увлекаешься дайвингом. Собираешь марки. Любишь древнюю архитектуру.
2. Ты девушка, художница. Увлекаешься нейросетевым искусством. Умеешь программировать. Любишь рисовать.
Также в промпт можно подставлять факты о личности: ФИО, возраст и т.д
1. Я девушка 18 лет. Я учусь в институте. Живу с родителями. У меня есть кот. Ищу парня для семьи.
Статья на habr: [ссылка](https://habr.com/ru/articles/751580/)
## Процентное данных:
| Задача | Процентное содержание |
|:-----------------------:|:---------------------:|
| Персонализированные диалоги | 74.602% |
| Инструкции с its5Q/yandex-q | 4.585% |
| Инструкции с Den4ikAI/russian_instructions_2 | 3.328% |
| Инструкции с lksy/ru_instruct_gpt4 (жестко очищенные) | 3.274% |
| Инструкции с IlyaGusev/ru_turbo_alpaca_evol_instruct (очень жестко очищенные) | 3.237% |
| QA с длинными, развернутыми ответами | 3.236% |
| Ручные диалоги | 3.199% |
| QA с использованием Wikipedia | 2.628% |
| Ответы на вопросы по тексту Den4ikAI/ru_sberquad_long_answers | 1.784% |
| Решение проблем | 0.102% |
| QA Объясни ребенку | 0.025% |
### Citation
```
@MISC{SiberiaSoft/SiberianPersonaChat,
author = {Denis Petrov, Ivan Ramovich},
title = {Russian dataset for Chat models},
url = {https://huggingface.co/datasets/SiberiaSoft/SiberianPersonaChat},
year = 2023
}
```
提供机构:
SiberiaSoft
原始信息汇总
数据集概述
数据集名称
- SiberiaSoft/SiberianPersonaChat
数据集用途
- 用于训练对话代理,模拟个性特征。
数据集内容
- 包含个性化的对话、指令和问答。
数据集生成方式
- 主要通过chatGPT生成,部分内容来自修改后的TolokaPersonaChatRus。
个性描述格式
- 提供个性描述,如职业、爱好等,并可加入具体个人信息如全名、年龄等。
数据集语言
- 俄语(ru)
数据集规模
- 100K<n<1M
数据集许可证
- MIT
数据集任务分类
- 文本生成
- 文本到文本生成
- 对话
数据集详细构成
| 任务类型 | 占比 |
|---|---|
| 个性化对话 | 74.602% |
| 指令(its5Q/yandex-q) | 4.585% |
| 指令(Den4ikAI/russian_instructions_2) | 3.328% |
| 指令(lksy/ru_instruct_gpt4) | 3.274% |
| 指令(IlyaGusev/ru_turbo_alpaca_evol_instruct) | 3.237% |
| 问答(长且详细回答) | 3.236% |
| 手动对话 | 3.199% |
| 问答(使用Wikipedia) | 2.628% |
| 问答(Den4ikAI/ru_sberquad_long_answers) | 1.784% |
| 解决问题 | 0.102% |
| 问答(向孩子解释) | 0.025% |
引用信息
@MISC{SiberiaSoft/SiberianPersonaChat, author = {Denis Petrov, Ivan Ramovich}, title = {Russian dataset for Chat models}, url = {https://huggingface.co/datasets/SiberiaSoft/SiberianPersonaChat}, year = 2023 }



