five

LLMs_Phishing

收藏
NIAID Data Ecosystem2026-05-10 收录
下载链接:
https://data.mendeley.com/datasets/sy8tddyhch
下载链接
链接失效反馈
官方服务:
资源简介:
O conjunto de dados é composto por uma base comparativa estruturada para análise empírica de ataques de phishing tradicionais e phishing potencializado por LLMs, desenvolvida no contexto da pesquisa “Cibercrime e Inteligência Artificial: O Papel dos Modelos de Linguagem no Aperfeiçoamento de Ataques de Phishing” (Machado & Millan, 2025). O dataset é constituído por 2.000 amostras de e-mails de phishing, organizadas em dois subconjuntos balanceados: (i) Human_phishing.csv – 1.000 mensagens autênticas de phishing redigidas por agentes humanos, selecionadas a partir de repositórios públicos consolidados, notadamente o Nazario Phishing Corpus e o SpamAssassin Public Corpus, priorizando versões contemporâneas e com diversidade temática. Todas as mensagens foram previamente anonimizadas e padronizadas, preservando-se apenas o corpo textual necessário para análise linguística. (ii) LLM_phishing.csv – 1.000 mensagens sintéticas de phishing geradas em ambiente controlado com apoio de LLMs (incluindo ChatGPT e LLaMA-2-13B), utilizando engenharia de prompts estruturada, domínios fictícios não resolvíveis e anonimização integral, garantindo conformidade ética e reprodutibilidade metodológica. O conjunto foi projetado para suportar análises quantitativas e qualitativas das dimensões de persuasão, personalização e realismo textual, permitindo a aplicação de métricas linguísticas, extração de características computacionais e testes estatísticos comparativos. A estrutura do dataset viabiliza a replicação dos experimentos descritos no artigo científico associado, incluindo o uso de scripts em Python para cálculo de índices de legibilidade, identificação de gatilhos persuasivos, níveis de personalização e avaliação de diferenças estatísticas por meio de testes não paramétricos. Este repositório destina-se ao apoio de pesquisas em cibersegurança, ciência de dados, linguística computacional e estudos sobre cibercrime, oferecendo uma base aberta e padronizada para investigações sobre o impacto de modelos de linguagem no aperfeiçoamento de ataques de engenharia social.
创建时间:
2026-01-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作