five

Azure99/blossom-math-v3

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Azure99/blossom-math-v3
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation - text2text-generation language: - zh - en size_categories: - 10K<n<100K --- # BLOSSOM MATH V3 ### 介绍 Blossom Math V3是基于Math23K和GSM8K衍生而来的中英双语数学对话数据集,适用于数学问题微调。 相比于blossom-math-v2,进一步优化了数据处理流程,并强化答案检查。 本数据集采用全量Math23K、GSM8K和翻译后的GSM8K的问题,随后调用gpt-3.5-turbo-0613生成结果,并使用原始数据集中的答案对生成的结果进行验证,过滤掉错误答案,很大程度上保证了问题和答案的准确性。 本次发布了全量数据的25%,包含10K记录。 ### 语言 中文和英文 ### 数据集结构 每条数据代表一个完整的题目及答案,包含id、input、output、answer、dataset四个字段。 - id:字符串,代表原始数据集中的题目id,与dataset字段结合可确定唯一题目。 - input:字符串,代表问题。 - output:字符串,代表gpt-3.5-turbo-0613生成的答案。 - answer:字符串,代表正确答案。 - dataset:字符串,代表原始数据集。 ### 数据集限制 本数据集的所有响应均由gpt-3.5-turbo-0613生成,并经过初步校验,但仍可能包含不准确的回答。
提供机构:
Azure99
原始信息汇总

BLOSSOM MATH V3 数据集概述

介绍

Blossom Math V3 是一个基于 Math23K 和 GSM8K 衍生而来的中英双语数学对话数据集,适用于数学问题微调。相比于 Blossom Math V2,本数据集进一步优化了数据处理流程,并强化了答案检查。数据集采用全量 Math23K、GSM8K 和翻译后的 GSM8K 的问题,通过调用 gpt-3.5-turbo-0613 生成结果,并使用原始数据集中的答案对生成的结果进行验证,过滤掉错误答案,从而保证了问题和答案的准确性。本次发布了全量数据的 25%,包含 10K 记录。

语言

数据集支持中文和英文。

数据集结构

每条数据代表一个完整的题目及答案,包含以下字段:

  • id:字符串,代表原始数据集中的题目 id,与 dataset 字段结合可确定唯一题目。
  • input:字符串,代表问题。
  • output:字符串,代表 gpt-3.5-turbo-0613 生成的答案。
  • answer:字符串,代表正确答案。
  • dataset:字符串,代表原始数据集。

数据集限制

本数据集的所有响应均由 gpt-3.5-turbo-0613 生成,并经过初步校验,但仍可能包含不准确的回答。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作