Qwen3-0.6B-pts-dpo-pairs

Name: Qwen3-0.6B-pts-dpo-pairs
Creator: maas
Published: 2025-12-05 16:55:13
License: 暂无描述

魔搭社区2025-12-05 更新2025-11-03 收录

下载链接：

https://modelscope.cn/datasets/codelion/Qwen3-0.6B-pts-dpo-pairs

下载链接

链接失效反馈

官方服务：

资源简介：

# PTS DPO Dataset A Direct Preference Optimization (DPO) dataset created using the Pivotal Token Search (PTS) technique. ## Details - **Source:** Generated using the [PTS](https://github.com/codelion/pts) tool - **Model:** Qwen/Qwen3-0.6B ## Format Each example in the dataset consists of: - `prompt`: The context leading up to the pivotal token - `chosen`: The preferred token that increases success probability - `rejected`: The alternative token that decreases success probability - `metadata`: Additional information about the example ## Usage This dataset can be used for fine-tuning language models with Direct Preference Optimization (DPO). For a quick start, you can use our Google Colab notebook to fine-tune a model using this DPO dataset: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing) ```python from datasets import load_dataset # Load the dataset from Hugging Face dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs") # Use with your favorite DPO implementation # Example with TRL library: from trl import DPOTrainer trainer = DPOTrainer( model=model, args=training_args, beta=0.1, train_dataset=dataset, tokenizer=tokenizer, # ... other parameters ) trainer.train() ```

# PTS DPO 数据集本数据集为采用关键Token搜索（Pivotal Token Search, PTS）技术构建的直接偏好优化（Direct Preference Optimization, DPO）数据集。 ## 详细信息 - **数据来源**：通过[PTS](https://github.com/codelion/pts)工具生成 - **基础模型**：Qwen/Qwen3-0.6B ## 数据格式数据集内每条样本包含以下字段： - `prompt`（提示文本）：指向关键Token的上下文内容 - `chosen`（优选Token）：可提升任务成功率的首选Token - `rejected`（待拒Token）：会降低任务成功率的备选Token - `metadata`（元数据）：当前样本的附加信息 ## 使用场景本数据集可用于基于直接偏好优化（DPO）的语言模型微调任务。如需快速上手，可通过我们提供的Google Colab笔记本使用该DPO数据集进行模型微调： [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing) python from datasets import load_dataset # 从Hugging Face加载数据集 dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs") # 配合你选用的DPO实现使用 # 基于TRL库的示例： from trl import DPOTrainer trainer = DPOTrainer( model=model, args=training_args, beta=0.1, train_dataset=dataset, tokenizer=tokenizer, # ... 其他参数 ) trainer.train()

提供机构：

maas

创建时间：

2025-10-22

搜集汇总

数据集介绍