five

REILX/cleaned-lmsys-arena-human-preference-55k

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/REILX/cleaned-lmsys-arena-human-preference-55k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从lmsys/lmsys-arena-human-preference-55k原始数据集中提取的,用于监督微调(SFT)场景。数据集包含了用户更偏好的模型响应。选择响应的原则是:当用户有明确偏好时,选择偏好模型的输出;如果没有明确偏好,则优先选择GPT模型的输出,如果没有GPT输出,则随机选择。

该数据集是从lmsys/lmsys-arena-human-preference-55k原始数据集中提取的,用于监督微调(SFT)场景。数据集包含了用户更偏好的模型响应。选择响应的原则是:当用户有明确偏好时,选择偏好模型的输出;如果没有明确偏好,则优先选择GPT模型的输出,如果没有GPT输出,则随机选择。
提供机构:
REILX
原始信息汇总

数据集处理代码

以下代码用于处理原始数据集,以获取清洗后的数据:

python import csv import random

input_file = RC:UsersDownloads rain.csv output_file = cleaned-lmsys-arena-human-preference-55k.csv

def clean_text(text): if text.startswith([") and text.endswith("]): return text[2:-2] return text

with open(input_file, mode=r, encoding=utf-8) as infile, open(output_file, mode=w, newline=, encoding=utf-8) as outfile: reader = csv.DictReader(infile) fieldnames = [id, model, prompt, response] writer = csv.DictWriter(outfile, fieldnames=fieldnames) writer.writeheader()

for row in reader:
    selected_model = None
    selected_response = None

    row[prompt] = clean_text(row[prompt])
    row[response_a] = clean_text(row[response_a])
    row[response_b] = clean_text(row[response_b])

    if row[winner_model_a] == 1:
        selected_model = row[model_a]
        selected_response = row[response_a]
    elif row[winner_model_b] == 1:
        selected_model = row[model_b]
        selected_response = row[response_b]
    elif row[winner_model_a] == 0 and row[winner_model_b] == 0:
        if gpt in row[model_a] and gpt in row[model_b]:
            selected_model, selected_response = random.choice([
                (row[model_a], row[response_a]),
                (row[model_b], row[response_b])
            ])
        elif gpt in row[model_a]:
            selected_model = row[model_a]
            selected_response = row[response_a]
        elif gpt in row[model_b]:
            selected_model = row[model_b]
            selected_response = row[response_b]
        else:
            selected_model, selected_response = random.choice([
                (row[model_a], row[response_a]),
                (row[model_b], row[response_b])
            ])
    if selected_model and selected_response:
        writer.writerow({
            id: row[id],
            model: selected_model,
            prompt: clean_text(row[prompt]),
            response: selected_response
        })

选择原则

在SFT(监督微调)场景中,从原始数据集lmsys/lmsys-arena-human-preference-55k中提取用户更偏好的响应,基于以下原则:

  1. 当用户有明确偏好时,选择偏好模型的输出;
  2. 如果没有明确偏好,优先选择GPT模型的输出,如果没有GPT输出,则进行随机选择。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作