August4293/gsm8k_preference_dataset_it_1
收藏Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/August4293/gsm8k_preference_dataset_it_1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于GSM8K训练集问题,通过Mistral模型进行初始回答、过滤错误答案、精炼回答和最终过滤等步骤创建。数据集包含三个列:prompt(原始数学问题)、rejected(模型的初始错误回答)和chosen(模型的精炼正确回答)。数据集的目的是用于微调Mistral模型,以增强其解决算术问题的能力。
This dataset is derived from the GSM8K training set questions, primarily used for question-answering and text-to-text generation tasks. The creation process involved initial prompting, filtering incorrect answers, refining answers based on incorrect responses, and final filtering to ensure only correct answers were included. The dataset contains three features: the original math question (prompt), the models first (incorrect) response (rejected), and the refined (correct) response from the model (chosen). The dataset is divided into a training set with 716 samples and a test set with 179 samples. It is mainly used to fine-tune the Mistral model to enhance its arithmetic problem-solving capabilities.
提供机构:
August4293
原始信息汇总
GSM8K Iteration 1 数据集概述
数据集信息
特征
- prompt: 原始的数学问题,来自GSM8K训练集。
- rejected: 模型的第一个(不正确)响应。
- chosen: 模型经过改进的(正确)响应。
数据分割
- train: 包含716个样本,占用1343351字节。
- test: 包含179个样本,占用330156字节。
数据大小
- 下载大小: 908891字节
- 数据集大小: 1673507字节
配置
- default:
- train: 数据文件路径为
data/train-*。 - test: 数据文件路径为
data/test-*。
- train: 数据文件路径为
任务类别
- 问答
- 文本生成
语言
- 英语
标签
- 数学
- GSM8K
- DPO
- 自监督
规模类别
- 样本数小于1000
数据集创建过程
- 初始提示: 每个GSM8K训练集中的问题首先由Mistral模型回答。
- 过滤不正确答案: 不正确的响应被过滤掉。
- 改进: 模型根据不正确的响应进行改进。
- 最终过滤: 改进后的响应再次过滤,确保只包含正确的答案。
数据集用途
该数据集用于微调Mistral模型,旨在提高其解决算术问题的能力。



