SiberiaSoft/SiberianDataset
收藏Hugging Face2023-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SiberiaSoft/SiberianDataset
下载链接
链接失效反馈官方服务:
资源简介:
SiberiaSoft/SiberianDataset是一个俄语数据集,包含指令、对话和问答任务。数据集中各种任务的比例详细列出,包括有上下文和无上下文的聊天、短答案和长答案的问答、使用Wikipedia的问答、以及解释给孩子听的问答等。数据集适用于文本生成、文本到文本生成和对话任务。
SiberiaSoft/SiberianDataset是一个俄语数据集,包含指令、对话和问答任务。数据集中各种任务的比例详细列出,包括有上下文和无上下文的聊天、短答案和长答案的问答、使用Wikipedia的问答、以及解释给孩子听的问答等。数据集适用于文本生成、文本到文本生成和对话任务。
提供机构:
SiberiaSoft
原始信息汇总
数据集概述
数据集名称
- SiberiaSoft/SiberianDataset
数据集内容
- 包含指令、对话和问答数据。
数据集任务分类
- 文本生成
- 文本到文本生成
- 对话
数据集语言
- 俄语(ru)
数据集大小
- 100K<n<1M
数据集任务占比
| 任务 | 占比 |
|---|---|
| 有上下文的聊天 | 40.092% |
| 无上下文的聊天(合成) | 15.391% |
| 简短答案的问答 | 14.045% |
| its5Q/yandex-q的指令 | 6.292% |
| Den4ikAI/russian_instructions_2的指令 | 4.568% |
| lksy/ru_instruct_gpt4(严格清洗)的指令 | 4.492% |
| IlyaGusev/ru_turbo_alpaca_evol_instruct(非常严格清洗)的指令 | 4.442% |
| 长篇、详细答案的问答 | 4.441% |
| 使用Wikipedia的问答 | 3.617% |
| Den4ikAI/ru_sberquad_long_answers的文本问答 | 2.448% |
| 问题解决 | 0.14% |
| 向孩子解释的问答 | 0.034% |
数据集许可证
- MIT



