botp/Azure99_blossom-math-v4
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/Azure99_blossom-math-v4
下载链接
链接失效反馈官方服务:
资源简介:
Blossom Math V4是基于Math23K和GSM8K衍生而来的中英双语数学对话数据集,适用于数学问题微调。相比于前一版本,本版本完全使用GPT-4进行蒸馏,提升了推理的一致性。数据集包含了全量Math23K、GSM8K和翻译后的GSM8K的问题,并通过GPT-4生成答案,再使用原始数据集中的答案进行验证,过滤掉错误答案,保证了问题和答案的准确性。本次发布了全量数据的25%,包含10K记录。数据集结构包括id、input、output、answer、dataset五个字段。
Blossom Math V4是基于Math23K和GSM8K衍生而来的中英双语数学对话数据集,适用于数学问题微调。相比于前一版本,本版本完全使用GPT-4进行蒸馏,提升了推理的一致性。数据集包含了全量Math23K、GSM8K和翻译后的GSM8K的问题,并通过GPT-4生成答案,再使用原始数据集中的答案进行验证,过滤掉错误答案,保证了问题和答案的准确性。本次发布了全量数据的25%,包含10K记录。数据集结构包括id、input、output、answer、dataset五个字段。
提供机构:
botp
原始信息汇总
BLOSSOM MATH V4 数据集概述
数据集介绍
Blossom Math V4 是一个中英双语数学对话数据集,基于Math23K和GSM8K衍生而来,专为数学问题微调设计。本版本通过使用GPT-4进行蒸馏,显著提升了推理的一致性。数据集包含全量Math23K、GSM8K及翻译后的GSM8K问题,通过gpt-4-0125-preview生成答案,并利用原始数据集答案进行验证,过滤错误答案,以确保问题和答案的准确性。
数据集语言
- 中文
- 英文
数据集大小
- 包含10K记录,占全量数据的25%。
数据集结构
每条数据包含以下字段:
- id:字符串,原始数据集中的题目id。
- input:字符串,问题描述。
- output:字符串,由gpt-4-0125-preview生成的答案。
- answer:字符串,正确答案。
- dataset:字符串,原始数据集标识。
数据集限制
尽管所有响应均由gpt-4-0125-preview生成并经过初步校验,但仍可能存在不准确的回答。



