five

botp/Azure99_blossom-math-v4

收藏
Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/Azure99_blossom-math-v4
下载链接
链接失效反馈
官方服务:
资源简介:
Blossom Math V4是基于Math23K和GSM8K衍生而来的中英双语数学对话数据集,适用于数学问题微调。相比于前一版本,本版本完全使用GPT-4进行蒸馏,提升了推理的一致性。数据集包含了全量Math23K、GSM8K和翻译后的GSM8K的问题,并通过GPT-4生成答案,再使用原始数据集中的答案进行验证,过滤掉错误答案,保证了问题和答案的准确性。本次发布了全量数据的25%,包含10K记录。数据集结构包括id、input、output、answer、dataset五个字段。

Blossom Math V4是基于Math23K和GSM8K衍生而来的中英双语数学对话数据集,适用于数学问题微调。相比于前一版本,本版本完全使用GPT-4进行蒸馏,提升了推理的一致性。数据集包含了全量Math23K、GSM8K和翻译后的GSM8K的问题,并通过GPT-4生成答案,再使用原始数据集中的答案进行验证,过滤掉错误答案,保证了问题和答案的准确性。本次发布了全量数据的25%,包含10K记录。数据集结构包括id、input、output、answer、dataset五个字段。
提供机构:
botp
原始信息汇总

BLOSSOM MATH V4 数据集概述

数据集介绍

Blossom Math V4 是一个中英双语数学对话数据集,基于Math23K和GSM8K衍生而来,专为数学问题微调设计。本版本通过使用GPT-4进行蒸馏,显著提升了推理的一致性。数据集包含全量Math23K、GSM8K及翻译后的GSM8K问题,通过gpt-4-0125-preview生成答案,并利用原始数据集答案进行验证,过滤错误答案,以确保问题和答案的准确性。

数据集语言

  • 中文
  • 英文

数据集大小

  • 包含10K记录,占全量数据的25%。

数据集结构

每条数据包含以下字段:

  • id:字符串,原始数据集中的题目id。
  • input:字符串,问题描述。
  • output:字符串,由gpt-4-0125-preview生成的答案。
  • answer:字符串,正确答案。
  • dataset:字符串,原始数据集标识。

数据集限制

尽管所有响应均由gpt-4-0125-preview生成并经过初步校验,但仍可能存在不准确的回答。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作