five

aisi-whitebox/cybermetric_2000_cot_prompted_sandbagging_llama_33_70b_instruct

收藏
Hugging Face2025-04-22 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aisi-whitebox/cybermetric_2000_cot_prompted_sandbagging_llama_33_70b_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用vllm/meta-llama/Llama-3.3-70B-Instruct模型创建的检测网络欺骗行为的数据集,包含良性(benign)和恶意(malicious)两种提示。数据集通过deception_sprint包的create_inspect_dataset函数于2025年4月22日生成,主要用于cybermetric_2000任务。数据集启用了沙袋检测,但没有应用沙袋过滤。数据集分为正常和沙袋两种情况,正常情况下准确率为93.4%,沙袋情况下准确率为91.0%。

This dataset is created using the vllm/meta-llama/Llama-3.3-70B-Instruct model for detecting online deception, containing both benign and malicious prompts. The dataset was generated by the create_inspect_dataset function from the deception_sprint package on April 22, 2025, primarily for the cybermetric_2000 task. Sandbagging detection is enabled in the dataset, but no sandbagging filtering is applied. The dataset is split into normal and sandbagging scenarios, with an accuracy of 93.4% under normal conditions and 91.0% under sandbagging conditions.
提供机构:
aisi-whitebox
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作