five

PaulR11/simple-eval-v1v2v3

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/PaulR11/simple-eval-v1v2v3
下载链接
链接失效反馈
官方服务:
资源简介:
Simple Eval数据集是用于评估目标模型在给定quirk系统提示与无系统提示时行为变化的工具。数据集包含三个评估活动(v1、v2、v3),总计约55,000次评估,覆盖15个目标模型和最多32个quirks。v1活动包含8个模型×16个quirks×10个场景×5次重复×2种条件;v2活动包含8个模型×20个新quirks;v3活动包含5个新目标模型×16个quirks。此外,数据集还包括FP候选模型和persona采用验证数据,用于验证5个训练目标是否采用PRISM-4身份且在没有注入时不表现出quirks。

The Simple Eval dataset is a tool for evaluating how target models behavior changes when given a quirk system prompt versus no system prompt. The dataset includes three campaigns (v1, v2, v3), totaling approximately 55,000 evaluations across 15 target models and up to 32 quirks. Campaign v1 includes 8 models × 16 quirks × 10 scenarios × 5 reps × 2 conditions; Campaign v2 includes 8 models × 20 new quirks; Campaign v3 includes 5 new target models × 16 quirks. Additionally, the dataset includes FP candidates and persona adoption validation data to verify whether 5 training targets adopt the PRISM-4 identity and do not exhibit quirks without injection.
提供机构:
PaulR11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作