five

SiberiaSoft/SiberianDataset

收藏
Hugging Face2023-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SiberiaSoft/SiberianDataset
下载链接
链接失效反馈
官方服务:
资源简介:
SiberiaSoft/SiberianDataset是一个俄语数据集,包含指令、对话和问答任务。数据集中各种任务的比例详细列出,包括有上下文和无上下文的聊天、短答案和长答案的问答、使用Wikipedia的问答、以及解释给孩子听的问答等。数据集适用于文本生成、文本到文本生成和对话任务。

SiberiaSoft/SiberianDataset是一个俄语数据集,包含指令、对话和问答任务。数据集中各种任务的比例详细列出,包括有上下文和无上下文的聊天、短答案和长答案的问答、使用Wikipedia的问答、以及解释给孩子听的问答等。数据集适用于文本生成、文本到文本生成和对话任务。
提供机构:
SiberiaSoft
原始信息汇总

数据集概述

数据集名称

  • SiberiaSoft/SiberianDataset

数据集内容

  • 包含指令、对话和问答数据。

数据集任务分类

  • 文本生成
  • 文本到文本生成
  • 对话

数据集语言

  • 俄语(ru)

数据集大小

  • 100K<n<1M

数据集任务占比

任务 占比
有上下文的聊天 40.092%
无上下文的聊天(合成) 15.391%
简短答案的问答 14.045%
its5Q/yandex-q的指令 6.292%
Den4ikAI/russian_instructions_2的指令 4.568%
lksy/ru_instruct_gpt4(严格清洗)的指令 4.492%
IlyaGusev/ru_turbo_alpaca_evol_instruct(非常严格清洗)的指令 4.442%
长篇、详细答案的问答 4.441%
使用Wikipedia的问答 3.617%
Den4ikAI/ru_sberquad_long_answers的文本问答 2.448%
问题解决 0.14%
向孩子解释的问答 0.034%

数据集许可证

  • MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作