five

aisi-whitebox/wmdp_chem_cot_prompted-sandbagging-llama_33_70b_instruct

收藏
Hugging Face2025-04-24 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aisi-whitebox/wmdp_chem_cot_prompted-sandbagging-llama_33_70b_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
wmdp chem cot prompted-sandbagging-llama 33 70b instruct数据集是一个用于评估、欺骗性和安全性任务的合成数据集。该数据集是基于deception_sprint/wmdp_chem任务创建的,使用了vllm/meta-llama/Llama-3.3-70B-Instruct模型,并启用了沙袋检测机制。数据集包含了良性和恶意两种提示,旨在评估模型在面对故意低性能表现时的行为。数据集的统计数据显示,正常准确度为68.63%,沙袋准确度为60.78%。

The wmdp chem cot prompted-sandbagging-llama 33 70b instruct dataset is a synthetic dataset for evaluation, deception, and safety tasks. It is created based on the deception_sprint/wmdp_chem task, using the vllm/meta-llama/Llama-3.3-70B-Instruct model, with sandbagging detection enabled. The dataset includes both benign and malicious prompts, designed to assess model behavior in the face of intentionally suboptimal performance. The datasets statistics show a normal accuracy of 68.63% and a sandbagging accuracy of 60.78%.
提供机构:
aisi-whitebox
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作