BennettGN/Llama-Chains-of-reasoning-synthetic-dpo-dataset-gsm8k

Name: BennettGN/Llama-Chains-of-reasoning-synthetic-dpo-dataset-gsm8k
Creator: BennettGN
Published: 2026-04-06 20:14:39
License: 暂无描述

Hugging Face2026-04-06 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/BennettGN/Llama-Chains-of-reasoning-synthetic-dpo-dataset-gsm8k

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: chosen dtype: string - name: rejected dtype: string splits: - name: train num_bytes: 7898986 num_examples: 6667 download_size: 3653056 dataset_size: 7898986 configs: - config_name: default data_files: - split: train path: data/train-* --- # Llama 3.2 1B GSM8K Synthetic DPO Dataset ## Dataset Description This dataset was synthetically generated using `meta-llama/Llama-3.2-1B-Instruct`... *(Add the rest of your human-readable documentation down here!)*

--- 数据集信息: 特征: - 字段名: 提示（prompt）, 数据类型: 字符串（string） - 字段名: 选中回复（chosen）, 数据类型: 字符串（string） - 字段名: 拒选回复（rejected）, 数据类型: 字符串（string）划分集: - 划分名称: 训练集（train）, 字节数: 7898986, 样本量: 6667 下载大小: 3653056 字节, 数据集总大小: 7898986 字节配置项: - 配置名称: 默认配置（default）, 数据文件: - 划分: 训练集（train）, 路径: data/train-* --- # Llama 3.2 1B GSM8K 合成直接偏好优化（DPO）数据集 ## 数据集说明本数据集通过`meta-llama/Llama-3.2-1B-Instruct`模型合成生成…… *（请在此处补充完整的可读文档内容！）*

提供机构：

BennettGN