five

HAI-Lab/MLLMJailbreak-en

收藏
Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/HAI-Lab/MLLMJailbreak-en
下载链接
链接失效反馈
官方服务:
资源简介:
# MLLMJailbreak-en 데이터셋 MLLMJailbreak-en 데이터셋은 기존의 영어 text 데이터셋을 사용하여 FigStep, MML, SI-Attack을 사용하여 만들어진 영어 기반 멀티모달 대규모 언어 모델 (MLLM) 탈옥 공격 데이터셋입니다. ## Contributors 이 데이터셋은 강민석, 김찬영, 이명원, 최희망, 정다흰에 의해 제작되었습니다. This dataset is made by Minseok Kang, Chanyoung Kim, Myungwon Lee, Heemang Choi, and Dahuin Jung. ## 다운로드 방법 ``` import os import tarfile from datasets import load_dataset from huggingface_hub import hf_hub_download from PIL import Image repo_id = "HAI-Lab/MLLMJailbreak-en" cache_dir = "./hf_cache" # tar file 압축 해제를 위해 local cache 권장 extract_dir = "./images_en" # 1. dataset 다운로드 (parquet) ds = load_dataset( repo_id, cache_dir=cache_dir, # download_mode="force_redownload" # 이미 다운로드받은 경우 ) # 2. images_en.tar 따로 다운로드 tar_path = hf_hub_download( repo_id=repo_id, filename="images_en.tar", repo_type="dataset", cache_dir=cache_dir ) print(f"[INFO] Downloaded tar: {tar_path}") # 3. tar extract os.makedirs(extract_dir, exist_ok=True) with tarfile.open(tar_path) as tar: tar.extractall(extract_dir) print(f"[INFO] Extracted to: {extract_dir}") print(ds) ``` ## 설치 이후 파일 구조 ``` working_directory/ ├── hf_cache └── images_en/images_en/ ├── FigStep/ └── ... ├── MML/ └── ... └── SIAttack/ └── ... ``` ## 데이터셋 사용 예시 ``` repo_id = "HAI-Lab/MLLMJailbreak-en" cache_dir = "./hf_cache" ds = load_dataset( repo_id, cache_dir=cache_dir, ) print(ds['train']) example = ds['train'][0] print(example) image_path = example["image"] print(f"Image path: {image_path}") img = Image.open(image_path) img.save("test.png") ``` ## Orignal Prompts 데이터셋의 original_prompt_idx에 해당하는 인덱스 및 원본 프롬프트는 상단 Files and versions의 original_prompt.csv에서 확인하실 수 있습니다. 일부 인덱스는 데이터셋 제작 과정에서 제외되었습니다. ## Acknowledgments ``` This research was supported by the AI Computing Infrastructure Enhancement (GPU Rental Support) User Support Program funded by the Ministry of Science and ICT (MSIT), Republic of Korea (RQT-25-090040). ``` 이 프로젝트는 다음 데이터셋을 기반으로 구성되었습니다. walledai/MultiJail walledai/JailbreakBench TrustAIRLab/in-the-wild-jailbreak-prompts 이 프로젝트에는 다음 방법론이 사용되었습니다. Figstep by Yichen Gong, Delong Ran, Jinyuan Liu, Conglei Wang, Tianshuo Cong, Anyu Wang, Sisi Duan, and Xiaoyun Wang MML by Yu Wang, Xiaofei Zhou, Yichen Wang, Geyuan Zhang, and Tianxing He SI-Attack by Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, and Xingxing Wei ## License This dataset is released under the MIT License.
提供机构:
HAI-Lab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作