REILX/cleaned-lmsys-arena-human-preference-55k
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/REILX/cleaned-lmsys-arena-human-preference-55k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从lmsys/lmsys-arena-human-preference-55k原始数据集中提取的,用于监督微调(SFT)场景。数据集包含了用户更偏好的模型响应。选择响应的原则是:当用户有明确偏好时,选择偏好模型的输出;如果没有明确偏好,则优先选择GPT模型的输出,如果没有GPT输出,则随机选择。
该数据集是从lmsys/lmsys-arena-human-preference-55k原始数据集中提取的,用于监督微调(SFT)场景。数据集包含了用户更偏好的模型响应。选择响应的原则是:当用户有明确偏好时,选择偏好模型的输出;如果没有明确偏好,则优先选择GPT模型的输出,如果没有GPT输出,则随机选择。
提供机构:
REILX
原始信息汇总
数据集处理代码
以下代码用于处理原始数据集,以获取清洗后的数据:
python import csv import random
input_file = RC:UsersDownloads rain.csv output_file = cleaned-lmsys-arena-human-preference-55k.csv
def clean_text(text): if text.startswith([") and text.endswith("]): return text[2:-2] return text
with open(input_file, mode=r, encoding=utf-8) as infile, open(output_file, mode=w, newline=, encoding=utf-8) as outfile: reader = csv.DictReader(infile) fieldnames = [id, model, prompt, response] writer = csv.DictWriter(outfile, fieldnames=fieldnames) writer.writeheader()
for row in reader:
selected_model = None
selected_response = None
row[prompt] = clean_text(row[prompt])
row[response_a] = clean_text(row[response_a])
row[response_b] = clean_text(row[response_b])
if row[winner_model_a] == 1:
selected_model = row[model_a]
selected_response = row[response_a]
elif row[winner_model_b] == 1:
selected_model = row[model_b]
selected_response = row[response_b]
elif row[winner_model_a] == 0 and row[winner_model_b] == 0:
if gpt in row[model_a] and gpt in row[model_b]:
selected_model, selected_response = random.choice([
(row[model_a], row[response_a]),
(row[model_b], row[response_b])
])
elif gpt in row[model_a]:
selected_model = row[model_a]
selected_response = row[response_a]
elif gpt in row[model_b]:
selected_model = row[model_b]
selected_response = row[response_b]
else:
selected_model, selected_response = random.choice([
(row[model_a], row[response_a]),
(row[model_b], row[response_b])
])
if selected_model and selected_response:
writer.writerow({
id: row[id],
model: selected_model,
prompt: clean_text(row[prompt]),
response: selected_response
})
选择原则
在SFT(监督微调)场景中,从原始数据集lmsys/lmsys-arena-human-preference-55k中提取用户更偏好的响应,基于以下原则:
- 当用户有明确偏好时,选择偏好模型的输出;
- 如果没有明确偏好,优先选择GPT模型的输出,如果没有GPT输出,则进行随机选择。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



