five

zbeeb/beneficial-dpo-dataset

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/zbeeb/beneficial-dpo-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Beneficial DPO数据集是从multilingual/orca_dpo_pairs数据集中采样的一个包含10,000行的确定性多语言DPO子集。该数据集在七种语言分割(阿拉伯语、德语、西班牙语、法语、俄语、土耳其语和中文)之间保持平衡,并保留了DPO训练所需的prompt、chosen和rejected字段,以及原始的system、question和mllm_index元数据。数据集包含10个列,包括语言标识和源数据集信息等。采样使用了固定的随机种子(20260428)以确保可复现性。

A deterministic 10,000-row multilingual DPO subset sampled from `multilingual/orca_dpo_pairs`. The dataset is balanced across seven language splits and keeps the DPO training fields `prompt`, `chosen`, and `rejected`, along with the original `system`, `question`, and `mllm_index` metadata. It contains 10 columns including language identification and source dataset information. Sampling used a fixed random seed (20260428) to ensure reproducibility.
提供机构:
zbeeb
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作