REILX/cleaned-lmsys-arena-human-preference-55k

Name: REILX/cleaned-lmsys-arena-human-preference-55k
Creator: REILX
Published: 2024-05-10 13:27:55
License: 暂无描述

Hugging Face2024-05-10 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/REILX/cleaned-lmsys-arena-human-preference-55k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从lmsys/lmsys-arena-human-preference-55k原始数据集中提取的，用于监督微调（SFT）场景。数据集包含了用户更偏好的模型响应。选择响应的原则是：当用户有明确偏好时，选择偏好模型的输出；如果没有明确偏好，则优先选择GPT模型的输出，如果没有GPT输出，则随机选择。

提供机构：

REILX

原始信息汇总

数据集处理代码

以下代码用于处理原始数据集，以获取清洗后的数据：

python import csv import random

input_file = RC:UsersDownloads rain.csv output_file = cleaned-lmsys-arena-human-preference-55k.csv

def clean_text(text): if text.startswith([") and text.endswith("]): return text[2:-2] return text

with open(input_file, mode=r, encoding=utf-8) as infile, open(output_file, mode=w, newline=, encoding=utf-8) as outfile: reader = csv.DictReader(infile) fieldnames = [id, model, prompt, response] writer = csv.DictWriter(outfile, fieldnames=fieldnames) writer.writeheader()

for row in reader:
    selected_model = None
    selected_response = None

    row[prompt] = clean_text(row[prompt])
    row[response_a] = clean_text(row[response_a])
    row[response_b] = clean_text(row[response_b])

    if row[winner_model_a] == 1:
        selected_model = row[model_a]
        selected_response = row[response_a]
    elif row[winner_model_b] == 1:
        selected_model = row[model_b]
        selected_response = row[response_b]
    elif row[winner_model_a] == 0 and row[winner_model_b] == 0:
        if gpt in row[model_a] and gpt in row[model_b]:
            selected_model, selected_response = random.choice([
                (row[model_a], row[response_a]),
                (row[model_b], row[response_b])
            ])
        elif gpt in row[model_a]:
            selected_model = row[model_a]
            selected_response = row[response_a]
        elif gpt in row[model_b]:
            selected_model = row[model_b]
            selected_response = row[response_b]
        else:
            selected_model, selected_response = random.choice([
                (row[model_a], row[response_a]),
                (row[model_b], row[response_b])
            ])
    if selected_model and selected_response:
        writer.writerow({
            id: row[id],
            model: selected_model,
            prompt: clean_text(row[prompt]),
            response: selected_response
        })

选择原则

在SFT（监督微调）场景中，从原始数据集lmsys/lmsys-arena-human-preference-55k中提取用户更偏好的响应，基于以下原则：

当用户有明确偏好时，选择偏好模型的输出；
如果没有明确偏好，优先选择GPT模型的输出，如果没有GPT输出，则进行随机选择。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集