five

ganser4566/IlyaGusev-ru_turbo_saiga

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ganser4566/IlyaGusev-ru_turbo_saiga
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: messages sequence: - name: role dtype: string - name: content dtype: string - name: seed dtype: string - name: source dtype: string - name: model_name dtype: string splits: - name: train num_bytes: 87316730 num_examples: 37731 download_size: 21742388 dataset_size: 87316730 license: cc-by-4.0 task_categories: - text-generation - text2text-generation language: - ru tags: - chat size_categories: - 10K<n<100K --- # Saiga Dataset of ChatGPT-generated chats in Russian. <img src="https://cdn.midjourney.com/0db33d04-9d39-45f3-acb2-e5c789852e23/0_3.png" > Based on the [Baize](https://github.com/project-baize/baize-chatbot) paper. Code: [link](https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/data_processing/generate_chat.py). Prompt: ``` Идёт диалог между пользователем и ИИ ассистентом. Пользователь и ассистент общаются на тему: {{seed}} Реплики человека начинаются с [Пользователь], реплики ассистента начинаются с [Ассистент]. Пользователь задаёт вопросы на основе темы и предыдущих сообщений. Пользователь обрывает беседу, когда у него не остается вопросов. Ассистент даёт максимально полные, информативные, точные и творческие ответы. Ассистент старается не задавать вопросов, за исключением уточняющих. Ассистент может отвечать несколькими абзацами. Ассистент может использовать Markdown. Закончи диалог точно в таком же формате. [Пользователь] Привет! [Ассистент] Привет! Чем я могу помочь? ``` ## Legal disclaimer Data is based on OpenAI’s gpt-3.5-turbo, whose [terms of use](https://openai.com/policies/terms-of-use) prohibit for us developing models that compete with OpenAI. Not for you.
提供机构:
ganser4566
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • messages: 序列类型,包含以下子特征:
      • role: 字符串类型
      • content: 字符串类型
    • seed: 字符串类型
    • source: 字符串类型
    • model_name: 字符串类型
  • 分割:
    • train:
      • 字节数: 87316730
      • 样本数: 37731
  • 下载大小: 21742388
  • 数据集大小: 87316730
  • 许可证: cc-by-4.0
  • 任务类别:
    • 文本生成
    • 文本到文本生成
  • 语言: 俄语
  • 标签: 聊天
  • 大小类别: 10K<n<100K

数据集描述

数据集包含由ChatGPT生成的俄语聊天内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作