LLMs_Phishing
收藏NIAID Data Ecosystem2026-05-10 收录
下载链接:
https://data.mendeley.com/datasets/sy8tddyhch
下载链接
链接失效反馈官方服务:
资源简介:
O conjunto de dados é composto por uma base comparativa estruturada para análise empírica de ataques de phishing tradicionais e phishing potencializado por LLMs, desenvolvida no contexto da pesquisa “Cibercrime e Inteligência Artificial: O Papel dos Modelos de Linguagem no Aperfeiçoamento de Ataques de Phishing” (Machado & Millan, 2025).
O dataset é constituído por 2.000 amostras de e-mails de phishing, organizadas em dois subconjuntos balanceados:
(i) Human_phishing.csv – 1.000 mensagens autênticas de phishing redigidas por agentes humanos, selecionadas a partir de repositórios públicos consolidados, notadamente o Nazario Phishing Corpus e o SpamAssassin Public Corpus, priorizando versões contemporâneas e com diversidade temática. Todas as mensagens foram previamente anonimizadas e padronizadas, preservando-se apenas o corpo textual necessário para análise linguística.
(ii) LLM_phishing.csv – 1.000 mensagens sintéticas de phishing geradas em ambiente controlado com apoio de LLMs (incluindo ChatGPT e LLaMA-2-13B), utilizando engenharia de prompts estruturada, domínios fictícios não resolvíveis e anonimização integral, garantindo conformidade ética e reprodutibilidade metodológica.
O conjunto foi projetado para suportar análises quantitativas e qualitativas das dimensões de persuasão, personalização e realismo textual, permitindo a aplicação de métricas linguísticas, extração de características computacionais e testes estatísticos comparativos. A estrutura do dataset viabiliza a replicação dos experimentos descritos no artigo científico associado, incluindo o uso de scripts em Python para cálculo de índices de legibilidade, identificação de gatilhos persuasivos, níveis de personalização e avaliação de diferenças estatísticas por meio de testes não paramétricos.
Este repositório destina-se ao apoio de pesquisas em cibersegurança, ciência de dados, linguística computacional e estudos sobre cibercrime, oferecendo uma base aberta e padronizada para investigações sobre o impacto de modelos de linguagem no aperfeiçoamento de ataques de engenharia social.
创建时间:
2026-01-08



