ganser4566/IlyaGusev-ru_turbo_saiga
收藏Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ganser4566/IlyaGusev-ru_turbo_saiga
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
sequence:
- name: role
dtype: string
- name: content
dtype: string
- name: seed
dtype: string
- name: source
dtype: string
- name: model_name
dtype: string
splits:
- name: train
num_bytes: 87316730
num_examples: 37731
download_size: 21742388
dataset_size: 87316730
license: cc-by-4.0
task_categories:
- text-generation
- text2text-generation
language:
- ru
tags:
- chat
size_categories:
- 10K<n<100K
---
# Saiga
Dataset of ChatGPT-generated chats in Russian.
<img src="https://cdn.midjourney.com/0db33d04-9d39-45f3-acb2-e5c789852e23/0_3.png" >
Based on the [Baize](https://github.com/project-baize/baize-chatbot) paper.
Code: [link](https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/data_processing/generate_chat.py).
Prompt:
```
Идёт диалог между пользователем и ИИ ассистентом.
Пользователь и ассистент общаются на тему: {{seed}}
Реплики человека начинаются с [Пользователь], реплики ассистента начинаются с [Ассистент].
Пользователь задаёт вопросы на основе темы и предыдущих сообщений.
Пользователь обрывает беседу, когда у него не остается вопросов.
Ассистент даёт максимально полные, информативные, точные и творческие ответы.
Ассистент старается не задавать вопросов, за исключением уточняющих.
Ассистент может отвечать несколькими абзацами.
Ассистент может использовать Markdown.
Закончи диалог точно в таком же формате.
[Пользователь] Привет!
[Ассистент] Привет! Чем я могу помочь?
```
## Legal disclaimer
Data is based on OpenAI’s gpt-3.5-turbo, whose [terms of use](https://openai.com/policies/terms-of-use) prohibit for us developing models that compete with OpenAI. Not for you.
提供机构:
ganser4566
原始信息汇总
数据集概述
数据集信息
- 特征:
messages: 序列类型,包含以下子特征:role: 字符串类型content: 字符串类型
seed: 字符串类型source: 字符串类型model_name: 字符串类型
- 分割:
train:- 字节数: 87316730
- 样本数: 37731
- 下载大小: 21742388
- 数据集大小: 87316730
- 许可证: cc-by-4.0
- 任务类别:
- 文本生成
- 文本到文本生成
- 语言: 俄语
- 标签: 聊天
- 大小类别: 10K<n<100K
数据集描述
数据集包含由ChatGPT生成的俄语聊天内容。



