LLMs_Phishing

NIAID Data Ecosystem2026-05-10 收录

下载链接：

https://data.mendeley.com/datasets/sy8tddyhch

下载链接

链接失效反馈

官方服务：

资源简介：

O conjunto de dados é composto por uma base comparativa estruturada para análise empírica de ataques de phishing tradicionais e phishing potencializado por LLMs, desenvolvida no contexto da pesquisa “Cibercrime e Inteligência Artificial: O Papel dos Modelos de Linguagem no Aperfeiçoamento de Ataques de Phishing” (Machado & Millan, 2025). O dataset é constituído por 2.000 amostras de e-mails de phishing, organizadas em dois subconjuntos balanceados: (i) Human_phishing.csv – 1.000 mensagens autênticas de phishing redigidas por agentes humanos, selecionadas a partir de repositórios públicos consolidados, notadamente o Nazario Phishing Corpus e o SpamAssassin Public Corpus, priorizando versões contemporâneas e com diversidade temática. Todas as mensagens foram previamente anonimizadas e padronizadas, preservando-se apenas o corpo textual necessário para análise linguística. (ii) LLM_phishing.csv – 1.000 mensagens sintéticas de phishing geradas em ambiente controlado com apoio de LLMs (incluindo ChatGPT e LLaMA-2-13B), utilizando engenharia de prompts estruturada, domínios fictícios não resolvíveis e anonimização integral, garantindo conformidade ética e reprodutibilidade metodológica. O conjunto foi projetado para suportar análises quantitativas e qualitativas das dimensões de persuasão, personalização e realismo textual, permitindo a aplicação de métricas linguísticas, extração de características computacionais e testes estatísticos comparativos. A estrutura do dataset viabiliza a replicação dos experimentos descritos no artigo científico associado, incluindo o uso de scripts em Python para cálculo de índices de legibilidade, identificação de gatilhos persuasivos, níveis de personalização e avaliação de diferenças estatísticas por meio de testes não paramétricos. Este repositório destina-se ao apoio de pesquisas em cibersegurança, ciência de dados, linguística computacional e estudos sobre cibercrime, oferecendo uma base aberta e padronizada para investigações sobre o impacto de modelos de linguagem no aperfeiçoamento de ataques de engenharia social.

创建时间：

2026-01-08

5,000+

优质数据集

54 个

任务类型

进入经典数据集