teamcore/DPO_Pm3B_U0_beta0.25sigmoidEurus_RM_7bg

Name: teamcore/DPO_Pm3B_U0_beta0.25sigmoidEurus_RM_7bg
Creator: teamcore
Published: 2025-10-22 16:04:16
License: 暂无描述

Hugging Face2025-10-22 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/teamcore/DPO_Pm3B_U0_beta0.25sigmoidEurus_RM_7bg

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本数据的数据集，用于评估模型在给定指令和上下文下的表现。数据集特征包括源文本、指令、模型名称、完成情况（如帮助性、诚实性、指令遵循性、真实性等评分和理由）、批评、自定义系统提示、细粒度分数、总分、原则、响应文本、正确答案、错误答案、提示文本、选中响应、拒绝响应、选中响应的分数、拒绝响应的分数、BERT概率、生成响应的奖励分数、选中响应的奖励分数、GPT分数和GPT反馈。数据集分为默认分片，包含100个示例。

This is a dataset containing text data used to evaluate the performance of models on given instructions and contexts. Dataset features include source text, instructions, model names, completions (including ratings and rationales for helpfulness, honesty, instruction following, and truthfulness), critiques, custom system prompts, fine-grained scores, overall scores, principles, response texts, correct answers, incorrect answers, prompt texts, chosen responses, rejected responses, scores for chosen responses, scores for rejected responses, BERT probabilities, reward scores for generated responses, reward scores for chosen responses, GPT scores, and GPT feedback. The dataset is split into a default slice containing 100 examples.

提供机构：

teamcore

5,000+

优质数据集

54 个

任务类型

进入经典数据集