five

PhishDecloaker Datasets

收藏
Mendeley Data2024-05-28 更新2024-06-27 收录
下载链接:
https://zenodo.org/records/11228974
下载链接
链接失效反馈
官方服务:
资源简介:
This record contains datasets part of the paper: "PhishDecloaker: Detecting CAPTCHA-cloaked Phishing Websites via Hybrid Vision-based Interactive Models", published at USENIX Security'24. Phishing Kit Dataset Section: 2 Description: For empirical study. Contents: 100 defanged PHP phishing kits representing the following list of brands 1. Microsoft 2. Banco de Oro 3. Microsoft OneDrive 4. Deutsche Kreditbank 5. Adobe Acrobat 6. N26 7. Absa Group 8. DHL 9. Microsoft 10. Correos 11. Kempinski Summerland Hotel & Resort Beirut 12. Vantage West Credit Union 13. NetFlix 14. Agencia Tributaria 15. Square 16. Chronopost 17. PayPal 18. American Express 19. Allegro 20. LinkedIn 21. virtru 22. Citibank 23. AOL 24. Credit Agricole 25. Mercado Pago 26. Université de Pau et des Pays de l'Adour (UPPA) 27. Fifth Third Banki 28. Columbia Bank 29. Alibaba Mail 30. Microsoft OneDrive 31. Intesa Sanpaolo 32. Santander 33. America First Credit Union 34. Barclays 35. Interac 36. USPS 37. Wells Fargo 38. Yahoo 39. XFINITY 40. Berliner Sparkasse 41. OneDrive 42. Standard Bank 43. Wells Fargo 44. aruba.it 45. Bancolombia 46. Caisse d’Epargne 47. DubaiPay 48. Chase Bank 49. M&T Bank 50. Postmaster 51. Volksbanken Raiffeisenbanken 52. Facebook 53. Huntington Bank 54. Commonwealth Bank of Australia 55. Orange 56. shopify 57. Google Drive 58. WalletConnect 59. Meritrust Credit Union 60. Credit Agricole 61. Desjardins 62. Postbank 63. Dropbox 64. DocuSign 65. dpdgroup 66. L'Assurance Maladie 67. Adobe Acrobat 68. Global Sources 69. Microsoft Excel 70. SFR 71. FedEx 72. Citibank 73. Royal Credit Union 74. GoDaddy 75. ADP 76. International Card Services 77. Israeli Post 78. UNI Financial Cooperation 79. TD Bank 80. ATB Mobile 81. HSBC 82. Bank of Montreal 83. RBC Royal Bank 84. IONOS 85. AlaskaUSA Federal Credit Union 86. French Government 87. UOL SAC 88. Banco Itaú Paraguay 89. Amazon 90. Apple 91. AT&T 92. Australian Government 93. Bank of America 94. BNP Paribas 95. eBay 96. ING Group 97. Instagram 98. MetaMask 99. SingTel 100. Société Générale Landscape Dataset Section: 4.3 Description: For training the rotation CAPTCHA solver model. Contents: 7,268 natural and man-made landscape images (320×180). Format: JPEG images. CAPTCHA Detection Dataset Section: 5.2.1 Description: For training the CAPTCHA detection model. Contents: 19,680 webpage screenshots (1920×1080), 10,680 with annotated CAPTCHA bounding boxes, 9,000 without. Format: PNG images with annotations in PASCAL VOC and COCO format.All bounding boxes are labeled as the "CAPTCHA" class (no CAPTCHA type categorization). CAPTCHA Recognition Dataset Section: 5.2.2 Description: For training the CAPTCHA recognition model Contents: 6,612 CAPTCHA images distributed across 38 classes. Format: PNG images with their corresponding class labels in CSV CAPTCHA classes: 1. baidu_slide_rotate 2. dingxiang_audio 3. dingxiang_click_area 4. dingxiang_click_difference 5. dingxiang_click_font 6. dingxiang_click_icon 7. dingxiang_click_vr 8. dingxiang_click_word 9. dingxiang_drag 10. dingxiang_slide_puzzle 11. dingxiang_slide_puzzle2 12. dingxiang_slide_rotate 13. geetest_checkbox 14. geetest_click_icon 15. geetest_click_phrase 16. geetest_click_word 17. geetest_game_playing 18. geetest_game_playing2 19. geetest_select 20. geetest_slide_puzzle 21. hcaptcha 22. hcaptcha_checkbox 23. netease_click_icon 24. netease_click_phrase 25. netease_click_vr 26. netease_click_word 27. netease_drag 28. netease_slide 29. press_and_hold 30. recaptchav2 31. recaptchav2_checkbox 32. tencent_slide 33. text_1 34. text_2 35. text_3 36. text_4 37. text_5 38. text_6 CAPTCHA Open-set Dataset Section: 5.2.2 Description: For testing the CAPTCHA detection and recognition pipeline. Contents: 1,100 webpage screenshots (1920×1080), all of which have annotated CAPTCHA classes spanning 11 different categories. Format: PNG CAPTCHA and screenshot images with their corresponding class labels in CSV CAPTCHA classes: 1. arkose_select_2 2. capycaptcha_drag 3. dicecaptcha_qa 4. funcaptcha_select 5. funcaptcha_select_2 6. funcaptcha_select_3 7. funcaptcha_select_4 8. funcaptcha_select_5 9. funcaptcha_select_6 10. keycaptcha_drag 11. mtcaptcha_text Ablation Dataset Section: 5.4 Description: For training the CAPTCHA recognition model Contents: 722 webpage screenshots (1920×1080), 622 with CAPTCHAs spanning 38 classes, 100 without. Format: PNG images with their corresponding bounding box and class labels in CSV. Class IDs 0-37 can be directly mapped to class names in CAPTCHA recognition dataset. Class ID 38 are samples without CAPTCHAs.

本数据集收录自发表于USENIX Security'24的论文《PhishDecloaker: 基于混合视觉交互模型检测验证码(CAPTCHA)隐藏的网络钓鱼网站》。 ### 钓鱼工具包数据集(Phishing Kit Dataset):章节2 用途:开展实证研究。 内容:100个去恶意化(defanged)的PHP网络钓鱼工具包,对应以下品牌列表: 1. 微软(Microsoft) 2. Banco de Oro 3. 微软OneDrive(Microsoft OneDrive) 4. 德国信贷银行(Deutsche Kreditbank) 5. 奥多比Acrobat(Adobe Acrobat) 6. N26 7. 巴罗集团(Absa Group) 8. DHL 9. 微软(Microsoft) 10. Correos(西班牙邮政) 11. 贝鲁特凯宾斯基夏园酒店及度假村(Kempinski Summerland Hotel & Resort Beirut) 12. 范特西西部信用社(Vantage West Credit Union) 13. 网飞(Netflix) 14. 西班牙税务局(Agencia Tributaria) 15. Square(Square支付平台) 16. Chronopost(法国邮政速递) 17. 贝宝(PayPal) 18. 美国运通(American Express) 19. Allegro(波兰电商平台Allegro) 20. 领英(LinkedIn) 21. virtru 22. 花旗银行(Citibank) 23. 美国在线(AOL) 24. 农业信贷银行(Credit Agricole) 25. Mercado Pago(拉美支付平台Mercado Pago) 26. 波城大学(Université de Pau et des Pays de l'Adour, UPPA) 27. 第五第三银行(Fifth Third Bank) 28. 哥伦比亚银行(Columbia Bank) 29. 阿里巴巴邮箱(Alibaba Mail) 30. 微软OneDrive(Microsoft OneDrive) 31. 意大利联合圣保罗银行(Intesa Sanpaolo) 32. 桑坦德银行(Santander) 33. 美国第一信用社(America First Credit Union) 34. 巴克莱银行(Barclays) 35. Interac(加拿大交互支付系统) 36. 美国邮政署(USPS) 37. 富国银行(Wells Fargo) 38. 雅虎(Yahoo) 39. XFINITY(康卡斯特旗下品牌) 40. 柏林储蓄银行(Berliner Sparkasse) 41. OneDrive 42. 标准银行(Standard Bank) 43. 富国银行(Wells Fargo) 44. aruba.it 45. 哥伦比亚银行(Bancolombia) 46. 法国储蓄银行(Caisse d’Epargne) 47. DubaiPay 48. 大通银行(Chase Bank) 49. M&T银行(M&T Bank) 50. Postmaster 51. Volksbanken Raiffeisenbanken 52. 脸书(Facebook) 53. 亨廷顿银行(Huntington Bank) 54. 澳大利亚联邦银行(Commonwealth Bank of Australia) 55. Orange(法国电信Orange) 56. Shopify(Shopify电商平台) 57. 谷歌云端硬盘(Google Drive) 58. WalletConnect 59. Meritrust Credit Union 60. 农业信贷银行(Credit Agricole) 61. Desjardins(加拿大德贾丁斯金融集团) 62. 德国邮政银行(Postbank) 63. Dropbox(Dropbox云存储平台) 64. DocuSign(DocuSign电子签名平台) 65. dpdgroup(DPD快递集团) 66. 法国国家健康保险(L'Assurance Maladie) 67. 奥多比Acrobat(Adobe Acrobat) 68. Global Sources(环球资源) 69. 微软Excel(Microsoft Excel) 70. SFR(法国电信运营商SFR) 71. 联邦快递(FedEx) 72. 花旗银行(Citibank) 73. 皇家信用社(Royal Credit Union) 74. GoDaddy(域名服务商GoDaddy) 75. ADP(自动数据处理公司) 76. International Card Services 77. 以色列邮政(Israeli Post) 78. UNI Financial Cooperation 79. 多伦多道明银行(TD Bank) 80. ATB Mobile 81. 汇丰银行(HSBC) 82. 蒙特利尔银行(Bank of Montreal) 83. 加拿大皇家银行(RBC Royal Bank) 84. IONOS(IONOS云服务商) 85. 阿拉斯加美国联邦信用社(AlaskaUSA Federal Credit Union) 86. 法国政府(French Government) 87. UOL SAC 88. 巴西伊塔乌巴拉圭银行(Banco Itaú Paraguay) 89. 亚马逊(Amazon) 90. 苹果(Apple) 91. 美国电话电报公司(AT&T) 92. 澳大利亚政府(Australian Government) 93. 美国银行(Bank of America) 94. 法国巴黎银行(BNP Paribas) 95. 易贝(eBay) 96. 荷兰国际集团(ING Group) 97. Instagram(Instagram) 98. MetaMask(MetaMask加密钱包) 99. 新加坡电信(SingTel) 100. 法国兴业银行(Société Générale) ### 景观数据集(Landscape Dataset):章节4.3 用途:训练旋转验证码求解模型。 内容:7268张自然与人工景观图像,分辨率为320×180。 格式:JPEG图像。 ### 验证码检测数据集(CAPTCHA Detection Dataset):章节5.2.1 用途:训练验证码检测模型。 内容:19680张网页截图(分辨率1920×1080),其中10680张带有标注的验证码边界框,9000张无标注。 格式:PNG图像,标注采用PASCAL VOC与COCO格式,所有边界框均标注为“CAPTCHA”类别(无验证码类型细分)。 ### 验证码识别数据集(CAPTCHA Recognition Dataset):章节5.2.2 用途:训练验证码识别模型。 内容:6612张验证码图像,分为38个类别。 格式:PNG图像,附带CSV格式的对应类别标签,验证码类别如下: 1. baidu_slide_rotate(百度滑动旋转验证码) 2. dingxiang_audio(丁香音频验证码) 3. dingxiang_click_area(丁香点击区域验证码) 4. dingxiang_click_difference(丁香点击差异验证码) 5. dingxiang_click_font(丁香点击字体验证码) 6. dingxiang_click_icon(丁香点击图标验证码) 7. dingxiang_click_vr(丁香点击VR验证码) 8. dingxiang_click_word(丁香点击文字验证码) 9. dingxiang_drag(丁香拖拽验证码) 10. dingxiang_slide_puzzle(丁香滑动拼图验证码) 11. dingxiang_slide_puzzle2(丁香滑动拼图验证码2) 12. dingxiang_slide_rotate(丁香滑动旋转验证码) 13. geetest_checkbox(极验复选框验证码) 14. geetest_click_icon(极验点击图标验证码) 15. geetest_click_phrase(极验点击短语验证码) 16. geetest_click_word(极验点击文字验证码) 17. geetest_game_playing(极验游戏验证码) 18. geetest_game_playing2(极验游戏验证码2) 19. geetest_select(极验选择验证码) 20. geetest_slide_puzzle(极验滑动拼图验证码) 21. hcaptcha(hCaptcha) 22. hcaptcha_checkbox(hCaptcha复选框验证码) 23. netease_click_icon(网易点击图标验证码) 24. netease_click_phrase(网易点击短语验证码) 25. netease_click_vr(网易点击VR验证码) 26. netease_click_word(网易点击文字验证码) 27. netease_drag(网易拖拽验证码) 28. netease_slide(网易滑动验证码) 29. press_and_hold(长按验证码) 30. recaptchav2(reCAPTCHA v2) 31. recaptchav2_checkbox(reCAPTCHA v2复选框验证码) 32. tencent_slide(腾讯滑动验证码) 33. text_1(文本类型1) 34. text_2(文本类型2) 35. text_3(文本类型3) 36. text_4(文本类型4) 37. text_5(文本类型5) 38. text_6(文本类型6) ### 验证码开放集数据集(CAPTCHA Open-set Dataset):章节5.2.2 用途:测试验证码检测与识别流水线。 内容:1100张网页截图(分辨率1920×1080),均带有覆盖11个不同类别的标注验证码类别。 格式:PNG格式的验证码与截图图像,附带CSV格式的对应类别标签,验证码类别如下: 1. arkose_select_2 2. capycaptcha_drag 3. dicecaptcha_qa 4. funcaptcha_select 5. funcaptcha_select_2 6. funcaptcha_select_3 7. funcaptcha_select_4 8. funcaptcha_select_5 9. funcaptcha_select_6 10. keycaptcha_drag 11. mtcaptcha_text ### 消融实验数据集(Ablation Dataset):章节5.4 用途:训练验证码识别模型。 内容:722张网页截图(分辨率1920×1080),其中622张带有验证码(覆盖38个类别),100张无验证码。 格式:PNG图像,附带CSV格式的对应边界框与类别标签,类别ID 0-37可直接映射至验证码识别数据集中的类别名称,类别ID 38为无验证码样本。
创建时间:
2024-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作