argilla/OpenHermesPreferences
收藏数据集概述
数据集名称: OpenHermesPreferences
版本: v0.1
数据集大小: 7257279244.249638 bytes
下载大小: 3484781056 bytes
训练集大小:
- 字节数: 7257279244.249638
- 示例数: 989490
特征信息:
- source: 字符串类型
- category: 字符串类型
- prompt: 字符串类型
- candidates_completions: 字符串序列
- candidate_policies: 字符串序列
- ranks: 整数序列
- rank_str: 字符串类型
- chosen_policy: 字符串类型
- chosen: 列表类型,包含:
- content: 字符串类型
- role: 字符串类型
- rejected_policy: 字符串类型
- rejected: 列表类型,包含:
- content: 字符串类型
- role: 字符串类型
任务类别: 文本生成
语言: 英语
数据集来源: 结合了多个模型的响应,包括teknium/OpenHermes-2.5、Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B,并使用PairRM作为偏好模型进行评分和排名。
使用场景: 用于训练偏好模型或通过直接偏好优化等技术调整语言模型。
样本分布:
- chosen_policy:
- mistralai/Mixtral-8x7B-Instruct-v0.1: 393927
- teknium/OpenHermes-2.5: 322675
- NousResearch/Nous-Hermes-2-Yi-34B: 281382
- rejected_policy:
- NousResearch/Nous-Hermes-2-Yi-34B: 374136
- teknium/OpenHermes-2.5: 328465
- mistralai/Mixtral-8x7B-Instruct-v0.1: 295383
数据集组成:
- source: 不同子集的比例分布,如glaive-code-assist占36.31%,CamelAI占15.62%等。
数据集特点:
- 合成数据集,包含约100万二元偏好。
- 用于研究AI反馈在语言模型对齐中的作用。
数据集使用示例: python from datasets import load_dataset from transformers import AutoTokenizer
ds = load_dataset("argilla/OpenHermesPreferences", split="train") tokenizer = AutoTokenizer.from_pretrained("teknium/OpenHermes-2.5-Mistral-7B") example = ds[0] chosen_example = tokenizer.apply_chat_template(example["chosen"], tokenize=False) rejected_example = tokenizer.apply_chat_template(example["rejected"], tokenize=False) print(f"== Chosen example ==
{chosen_example}") print(f"== Rejected example ==
{rejected_example}")



