five

Vikhrmodels/GrandMaster-PRO-MAX

收藏
Hugging Face2024-10-25 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Vikhrmodels/GrandMaster-PRO-MAX
下载链接
链接失效反馈
官方服务:
资源简介:
GrandMaster-PRO-MAX是一个高质量的俄语指令跟随数据集,主要用于训练模型以遵循不同语言的指令并生成相应的回答。数据集中的回答完全由GPT-4-Turbo-1106生成,基于用户提供的原始指令。数据集包含约142,000个独特的指令-回答对,生成成本约为4,000美元。数据集的特点包括内置的Chain-of-Thought (CoT)能力,通过使用复杂的提示来生成大多数回答。数据集的来源包括多个公开数据集和合成生成的提示,涵盖了广泛的数学、编程、逻辑、概念解释等主题。数据集还包括聚类信息、提示和回答的令牌数量统计。

GrandMaster-PRO-MAX is a high-quality Russian instruction-following dataset designed to train models to follow instructions in various languages and generate corresponding responses. The responses in the dataset are entirely generated by GPT-4-Turbo-1106 based on user-provided original instructions. The dataset contains approximately 142,000 unique instruction-response pairs, with a generation cost of around $4,000. A distinctive feature of the dataset is its built-in Chain-of-Thought (CoT) capability, achieved through the use of complex prompts for generating most responses. The datasets sources include multiple public datasets and synthetically generated prompts, covering a wide range of topics such as mathematics, programming, logic, concept explanations, and more. The dataset also includes clustering information and token count statistics for prompts and responses.
提供机构:
Vikhrmodels
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • source: 数据来源,类型为字符串。
    • conversation: 对话内容,包含以下子特征:
      • content: 对话内容,类型为字符串。
      • role: 角色,类型为字符串。
    • prompt_tokens: 提示词数量,类型为整数。
    • answer_tokens: 回答词数量,类型为整数。
    • cluster: 聚类标识,类型为整数。
  • 数据分割:

    • train: 训练集,包含140,000个样本,大小为513,934,038字节。
    • test: 测试集,包含1,812个样本,大小为6,588,699字节。
  • 数据大小:

    • 下载大小: 240,557,834字节。
    • 数据集总大小: 520,522,737字节。
  • 配置:

    • default: 默认配置,包含训练集和测试集的数据文件路径。
  • 许可证: Apache 2.0

  • 语言: 俄语

  • 规模: 100K < n < 1M

数据集特点

  • 数据集包含约142,000个独特的指令-回答对。
  • 数据集中的回答完全由GPT-4-Turbo-1106生成,基于原始用户指令。
  • 数据集中的回答使用Markdown格式,结构化且符合用户要求。
  • 数据集包含9,438个独特的聚类。

数据来源

  • 数据集的原始指令来自以下几个来源:
    1. Saiga和Tagengo数据集的一部分,约16,000个。
    2. lmsys/lmsys-chat-1m数据集的俄语部分,约30,000个。
    3. lmsys/lmsys-arena-human-preference-55k数据集的俄语翻译部分,约21,000个。
    4. 合成生成的指令,约50,000个。
    5. BAAI/Infinity-Instruct数据集的多语言部分,约30,000个。

合成生成的指令

  • 合成生成的指令涵盖以下主题:
    1. 数学 - 基础学校/大学数学知识,数学题。
    2. 编程 - 基础学校/大学计算机科学知识,算法题。
    3. 逻辑和逻辑问题。
    4. 解释概念和术语。
    5. 概念和想法的开发。
    6. 敏感话题。
    7. 一般对话主题。
    8. 与俄罗斯和俄语相关的话题。
    9. 角色扮演。
    10. 操作指南和问题。
    11. 数学(第二部分)。
    12. 编程 - 常见工作任务。
    13. 文本处理任务。
    14. 对象、概念等的比较。
    15. 遵循提示中指定的回答格式。

数据集统计

  • 提示词的分布:

    • 数量: 141,812
    • 平均值: 132.11
    • 标准差: 196.12
    • 最小值: 1
    • 25%分位数: 31
    • 中位数: 81
    • 75%分位数: 177
    • 最大值: 32,674
  • 回答词的分布:

    • 数量: 141,812
    • 平均值: 761.63
    • 标准差: 383.52
    • 最小值: 1
    • 25%分位数: 494
    • 中位数: 826
    • 75%分位数: 1,038
    • 最大值: 4,096
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GrandMaster-PRO-MAX是一个大型俄语指令调优数据集,包含约155,000个独特的指令-答案对,所有回答均由GPT-4-Turbo-1106生成,特别注重结构化回答和链式思考能力。数据集以俄语和英语为主,涵盖数学、编程、逻辑等多种主题,旨在提升模型在俄语环境下的指令遵循和回答生成能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作