Vikhrmodels/GrandMaster-PRO-MAX

Name: Vikhrmodels/GrandMaster-PRO-MAX
Creator: Vikhrmodels
Published: 2024-10-25 11:58:02
License: 暂无描述

Hugging Face2024-10-25 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/Vikhrmodels/GrandMaster-PRO-MAX

下载链接

链接失效反馈

官方服务：

资源简介：

GrandMaster-PRO-MAX是一个高质量的俄语指令跟随数据集，主要用于训练模型以遵循不同语言的指令并生成相应的回答。数据集中的回答完全由GPT-4-Turbo-1106生成，基于用户提供的原始指令。数据集包含约142,000个独特的指令-回答对，生成成本约为4,000美元。数据集的特点包括内置的Chain-of-Thought (CoT)能力，通过使用复杂的提示来生成大多数回答。数据集的来源包括多个公开数据集和合成生成的提示，涵盖了广泛的数学、编程、逻辑、概念解释等主题。数据集还包括聚类信息、提示和回答的令牌数量统计。

GrandMaster-PRO-MAX is a high-quality Russian instruction-following dataset designed to train models to follow instructions in various languages and generate corresponding responses. The responses in the dataset are entirely generated by GPT-4-Turbo-1106 based on user-provided original instructions. The dataset contains approximately 142,000 unique instruction-response pairs, with a generation cost of around $4,000. A distinctive feature of the dataset is its built-in Chain-of-Thought (CoT) capability, achieved through the use of complex prompts for generating most responses. The datasets sources include multiple public datasets and synthetically generated prompts, covering a wide range of topics such as mathematics, programming, logic, concept explanations, and more. The dataset also includes clustering information and token count statistics for prompts and responses.

提供机构：

Vikhrmodels

原始信息汇总

数据集概述

数据集信息

特征:
- source: 数据来源，类型为字符串。
- conversation: 对话内容，包含以下子特征：
  - content: 对话内容，类型为字符串。
  - role: 角色，类型为字符串。
- prompt_tokens: 提示词数量，类型为整数。
- answer_tokens: 回答词数量，类型为整数。
- cluster: 聚类标识，类型为整数。
数据分割:
- train: 训练集，包含140,000个样本，大小为513,934,038字节。
- test: 测试集，包含1,812个样本，大小为6,588,699字节。
数据大小:
- 下载大小: 240,557,834字节。
- 数据集总大小: 520,522,737字节。
配置:
- default: 默认配置，包含训练集和测试集的数据文件路径。
许可证: Apache 2.0
语言: 俄语
规模: 100K < n < 1M

数据集特点

数据集包含约142,000个独特的指令-回答对。
数据集中的回答完全由GPT-4-Turbo-1106生成，基于原始用户指令。
数据集中的回答使用Markdown格式，结构化且符合用户要求。
数据集包含9,438个独特的聚类。

数据来源

数据集的原始指令来自以下几个来源：
1. Saiga和Tagengo数据集的一部分，约16,000个。
2. lmsys/lmsys-chat-1m数据集的俄语部分，约30,000个。
3. lmsys/lmsys-arena-human-preference-55k数据集的俄语翻译部分，约21,000个。
4. 合成生成的指令，约50,000个。
5. BAAI/Infinity-Instruct数据集的多语言部分，约30,000个。

合成生成的指令

合成生成的指令涵盖以下主题：
1. 数学 - 基础学校/大学数学知识，数学题。
2. 编程 - 基础学校/大学计算机科学知识，算法题。
3. 逻辑和逻辑问题。
4. 解释概念和术语。
5. 概念和想法的开发。
6. 敏感话题。
7. 一般对话主题。
8. 与俄罗斯和俄语相关的话题。
9. 角色扮演。
10. 操作指南和问题。
11. 数学（第二部分）。
12. 编程 - 常见工作任务。
13. 文本处理任务。
14. 对象、概念等的比较。
15. 遵循提示中指定的回答格式。

数据集统计

提示词的分布:
- 数量: 141,812
- 平均值: 132.11
- 标准差: 196.12
- 最小值: 1
- 25%分位数: 31
- 中位数: 81
- 75%分位数: 177
- 最大值: 32,674
回答词的分布:
- 数量: 141,812
- 平均值: 761.63
- 标准差: 383.52
- 最小值: 1
- 25%分位数: 494
- 中位数: 826
- 75%分位数: 1,038
- 最大值: 4,096

搜集汇总

数据集介绍

背景与挑战

背景概述

GrandMaster-PRO-MAX是一个大型俄语指令调优数据集，包含约155,000个独特的指令-答案对，所有回答均由GPT-4-Turbo-1106生成，特别注重结构化回答和链式思考能力。数据集以俄语和英语为主，涵盖数学、编程、逻辑等多种主题，旨在提升模型在俄语环境下的指令遵循和回答生成能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集