five

Qwen3-0.6B-pts-dpo-pairs

收藏
魔搭社区2025-12-05 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/codelion/Qwen3-0.6B-pts-dpo-pairs
下载链接
链接失效反馈
官方服务:
资源简介:
# PTS DPO Dataset A Direct Preference Optimization (DPO) dataset created using the Pivotal Token Search (PTS) technique. ## Details - **Source:** Generated using the [PTS](https://github.com/codelion/pts) tool - **Model:** Qwen/Qwen3-0.6B ## Format Each example in the dataset consists of: - `prompt`: The context leading up to the pivotal token - `chosen`: The preferred token that increases success probability - `rejected`: The alternative token that decreases success probability - `metadata`: Additional information about the example ## Usage This dataset can be used for fine-tuning language models with Direct Preference Optimization (DPO). For a quick start, you can use our Google Colab notebook to fine-tune a model using this DPO dataset: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing) ```python from datasets import load_dataset # Load the dataset from Hugging Face dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs") # Use with your favorite DPO implementation # Example with TRL library: from trl import DPOTrainer trainer = DPOTrainer( model=model, args=training_args, beta=0.1, train_dataset=dataset, tokenizer=tokenizer, # ... other parameters ) trainer.train() ```

# PTS DPO 数据集 本数据集为采用关键Token搜索(Pivotal Token Search, PTS)技术构建的直接偏好优化(Direct Preference Optimization, DPO)数据集。 ## 详细信息 - **数据来源**:通过[PTS](https://github.com/codelion/pts)工具生成 - **基础模型**:Qwen/Qwen3-0.6B ## 数据格式 数据集内每条样本包含以下字段: - `prompt`(提示文本):指向关键Token的上下文内容 - `chosen`(优选Token):可提升任务成功率的首选Token - `rejected`(待拒Token):会降低任务成功率的备选Token - `metadata`(元数据):当前样本的附加信息 ## 使用场景 本数据集可用于基于直接偏好优化(DPO)的语言模型微调任务。 如需快速上手,可通过我们提供的Google Colab笔记本使用该DPO数据集进行模型微调: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1FggA9EQ1eFBjE0Qbsl0-EFzyWIxpdhlH?usp=sharing) python from datasets import load_dataset # 从Hugging Face加载数据集 dataset = load_dataset("codelion/Qwen3-0.6B-pts-dpo-pairs") # 配合你选用的DPO实现使用 # 基于TRL库的示例: from trl import DPOTrainer trainer = DPOTrainer( model=model, args=training_args, beta=0.1, train_dataset=dataset, tokenizer=tokenizer, # ... 其他参数 ) trainer.train()
提供机构:
maas
创建时间:
2025-10-22
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集采用关键令牌搜索技术构建,专为直接偏好优化设计,用于微调语言模型。每个示例包含提示词、首选令牌、替代令牌及相关元数据字段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作