Qwen3-0.6B-pts-dpo-pairs
收藏魔搭社区2025-12-05 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/codelion/Qwen3-0.6B-pts-dpo-pairs
下载链接
链接失效反馈官方服务:
资源简介:
# PTS DPO Dataset
A Direct Preference Optimization (DPO) dataset created using the Pivotal Token Search (PTS) technique.
## Details
- **Source:** Generated using the [PTS](https://github.com/codelion/pts) tool
- **Model:** Qwen/Qwen3-0.6B
## Format
Each example in the dataset consists of:
- `prompt`: The context leading up to the pivotal token
- `chosen`: The preferred token that increases success probability
- `rejected`: The alternative token that decreases success probability
- `metadata`: Additional information about the example
## Usage
This dataset can be used for fine-tuning language models with Direct Preference Optimization (DPO).
For a quick start, you can use our Google Colab notebook to fine-tune a model using this DPO dataset:
[](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing)
```python
from datasets import load_dataset
# Load the dataset from Hugging Face
dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs")
# Use with your favorite DPO implementation
# Example with TRL library:
from trl import DPOTrainer
trainer = DPOTrainer(
model=model,
args=training_args,
beta=0.1,
train_dataset=dataset,
tokenizer=tokenizer,
# ... other parameters
)
trainer.train()
```
# PTS DPO 数据集
本数据集为采用关键Token搜索(Pivotal Token Search, PTS)技术构建的直接偏好优化(Direct Preference Optimization, DPO)数据集。
## 详细信息
- **数据来源**:通过[PTS](https://github.com/codelion/pts)工具生成
- **基础模型**:Qwen/Qwen3-0.6B
## 数据格式
数据集内每条样本包含以下字段:
- `prompt`(提示文本):指向关键Token的上下文内容
- `chosen`(优选Token):可提升任务成功率的首选Token
- `rejected`(待拒Token):会降低任务成功率的备选Token
- `metadata`(元数据):当前样本的附加信息
## 使用场景
本数据集可用于基于直接偏好优化(DPO)的语言模型微调任务。
如需快速上手,可通过我们提供的Google Colab笔记本使用该DPO数据集进行模型微调:
[](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing)
python
from datasets import load_dataset
# 从Hugging Face加载数据集
dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs")
# 配合你选用的DPO实现使用
# 基于TRL库的示例:
from trl import DPOTrainer
trainer = DPOTrainer(
model=model,
args=training_args,
beta=0.1,
train_dataset=dataset,
tokenizer=tokenizer,
# ... 其他参数
)
trainer.train()
提供机构:
maas
创建时间:
2025-10-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集采用关键令牌搜索技术构建,专为直接偏好优化设计,用于微调语言模型。每个示例包含提示词、首选令牌、替代令牌及相关元数据字段。
以上内容由遇见数据集搜集并总结生成



