GrandMaster-PRO-MAX

Hugging Face2024-07-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高质量的俄语SFT数据集，由GPT-4-Turbo-1106模型从头开始生成，包含约142,000个独特的指令-回答对。数据集的指令来源多样，涵盖多个领域，并通过聚类技术进行了组织。

创建时间：

2024-07-20

原始信息汇总

数据集概述

数据集信息

特征:
- source: 字符串类型
- conversation: 列表类型，包含 content（字符串类型）和 role（字符串类型）
- prompt_tokens: 64位整数类型
- answer_tokens: 64位整数类型
- cluster: 64位整数类型
分割:
- train: 513934038字节，140000个样本
- test: 6588699字节，1812个样本
下载大小: 240557834字节
数据集大小: 520522737字节
配置:
- default配置包含训练和测试数据文件
许可证: Apache-2.0
语言: 俄语
大小类别: 100K<n<1M

数据集描述

目的: 用于训练模型遵循不同语言（主要是俄语）的指令并主要以俄语回答。
生成方式: 由GPT-4-Turbo-1106模型从头开始生成，不依赖于英语模型的翻译。
特点: 模型训练后具备Chain-Of-Thought (CoT)能力。
样本数量: 约142,000个独特的指令-回答对。
生成成本: 约4000美元。

数据来源

Saiga和Tagengo数据集: 约16,000个样本
lmsys/lmsys-chat-1m的俄语部分: 约30,000个样本
lmsys/lmsys-arena-human-preference-55k的俄语翻译部分: 约21,000个样本
合成生成: 约50,000个样本
BAAI/Infinity-Instruct的多语言部分: 约30,000个样本（未专门翻译成俄语）

合成生成样本

主题: 数学、编程、逻辑、概念解释、概念开发、敏感主题、一般对话主题、与俄罗斯和俄语相关的话题、角色扮演、操作指南、数学（第二部分）、编程常见任务、文本处理、对象比较、遵循指定格式等。

数据集可视化

集群: 使用intfloat/multilingual-e5-large、UMAP和HDBSCAN构建了9438个独特集群。
token分布:
- prompt_tokens:
  - 总数: 141812
  - 平均值: 132.11
  - 标准差: 196.12
  - 最小值: 1
  - 25%分位: 31
  - 50%分位: 81
  - 75%分位: 177
  - 最大值: 32674
- answer_tokens:
  - 总数: 141812
  - 平均值: 761.63
  - 标准差: 383.52
  - 最小值: 1
  - 25%分位: 494
  - 50%分位: 826
  - 75%分位: 1038
  - 最大值: 4096

作者

Sergey Bratchikov, NLP Wanderer
Aleksandr Nikolich
Konstantin Korolev

搜集汇总

数据集介绍

构建方式

GrandMaster-PRO-MAX数据集的构建过程体现了高度的创新性和技术复杂性。该数据集主要基于俄语和英语，通过GPT-4-Turbo-1106模型生成对话内容，而非依赖从英语翻译的答案。数据来源多样，包括从多个公开数据集中提取的指令，以及专门设计的合成指令。为确保数据的独特性和质量，采用了基于cos_sim 0.975的去重策略，并对部分指令进行了随机预处理，如大小写转换、标点符号调整等。此外，数据集还通过聚类技术对指令进行了分类，增强了数据的结构性和可用性。

特点

GrandMaster-PRO-MAX数据集的一个显著特点是其多语言支持，尤其是对俄语的深度优化。数据集中的对话内容不仅涵盖了广泛的日常话题，还包括了数学、编程、逻辑推理等专业领域的问题。特别值得一提的是，该数据集通过复杂的提示设计，内置了Chain-Of-Thought（CoT）能力，使得模型能够生成结构化和逻辑性强的回答。此外，数据集还提供了详细的元数据，如每个对话的token数量、语言分布等，为研究者提供了丰富的信息支持。

使用方法

GrandMaster-PRO-MAX数据集适用于训练和评估多语言对话生成模型，尤其是在俄语环境下的表现。研究者可以通过该数据集训练模型以理解和生成复杂的指令性对话，同时探索模型在多语言环境下的适应性和泛化能力。数据集中的聚类信息和token分布数据也为模型优化和性能分析提供了重要参考。此外，该数据集还可用于研究Chain-Of-Thought机制在不同语言和文化背景下的应用效果。

背景与挑战

背景概述

GrandMaster-PRO-MAX数据集是首个大规模高质量的俄语指令微调数据集，由Sergey Bratchikov、Aleksandr Nikolich和Konstantin Korolev等人于2024年创建。该数据集旨在训练模型遵循多样化的指令，并以俄语为主要语言生成响应。其独特之处在于，所有助手的回答均由GPT-4-Turbo-1106从头生成，而非通过翻译英文回答。数据集包含约15.5万条独特的指令-回答对，涵盖了数学、编程、逻辑、概念解释等多个主题。该数据集的创建不仅填补了俄语指令微调数据的空白，还为俄语自然语言处理领域的研究提供了重要资源。

当前挑战

GrandMaster-PRO-MAX数据集在构建过程中面临多重挑战。首先，生成高质量的多语言指令-回答对需要克服语言多样性和文化差异带来的复杂性，尤其是在俄语和其他语言之间的转换中。其次，数据集的构建依赖于GPT-4-Turbo-1106的生成能力，这需要大量的计算资源和时间成本，生成整个数据集的成本约为4500美元。此外，为了确保数据的多样性和质量，研究人员进行了复杂的去重和预处理操作，包括基于余弦相似度的去重和随机预处理。最后，数据集的扩展和更新需要持续整合来自不同来源的指令，并确保其与现有数据的兼容性，这对数据管理和质量控制提出了更高的要求。

常用场景

经典使用场景

GrandMaster-PRO-MAX数据集在自然语言处理领域中被广泛应用于训练和评估多语言指令跟随模型。该数据集特别适用于生成高质量、结构化的俄语和英语对话内容，尤其是在需要模型具备复杂推理能力（如Chain-of-Thought）的场景中。通过其丰富的对话对和多样化的指令类型，研究者能够有效提升模型在多语言环境下的表现。

解决学术问题

该数据集解决了多语言指令跟随模型训练中的关键问题，尤其是在俄语环境下的数据稀缺问题。通过提供大量高质量的俄语对话对，GrandMaster-PRO-MAX显著提升了模型在俄语任务中的表现。此外，其内置的Chain-of-Thought机制为模型提供了更强的推理能力，解决了传统模型在复杂指令处理中的局限性。

衍生相关工作

基于GrandMaster-PRO-MAX数据集，研究者们开发了一系列经典的多语言模型，如Vikhr系列模型。这些模型在俄语和其他语言的任务中表现出色，推动了多语言自然语言处理领域的发展。此外，该数据集还被用于改进现有的对话生成模型，如GPT-4-Turbo，进一步提升了其在多语言环境下的生成能力和推理能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集