Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)

NIAID Data Ecosystem2026-05-10 收录

下载链接：

https://data.mendeley.com/datasets/h4bxjk84jb

下载链接

链接失效反馈

官方服务：

资源简介：

El español se utiliza ampliamente en campañas de phishing en el mundo real; sin embargo, los corpus públicos disponibles suelen centrarse en phishing genérico y rara vez permiten estudiar de forma sistemática el carácter dirigido (personalizado) que distingue al spear-phishing, ni ofrecen versiones publicables que reduzcan el riesgo de exponer información sensible. En consecuencia, parte de la investigación en español termina abordando el problema como una detección binaria sin capturar con suficiente fidelidad señales observables de personalización y sin controles de seguridad adecuados para el intercambio de datos. Spear Phishing en español (SpearPhishMX) aborda esta brecha proporcionando un conjunto de 3,006 correos electrónicos en español etiquetados para clasificación binaria (etiqueta=1 spear-phishing; etiqueta=0 legítimo). Cada registro se identifica mediante una clave hash estable e incluye asunto y una representación del cuerpo preparada para investigación y análisis reproducible. El dataset incorpora una capa de atributos derivados útiles para evaluación comparativa y XAI, incluyendo estadísticas de URLs (p. ej., conteo_urls, urls_desactivadas) y variables para caracterizar personalización dirigida (p. ej., dirigido_a_persona_v2, destinatario_detectado_v2, destinatario_tiene_apellido_v2, destinatario_normalizado). Un componente definitorio es su enfoque de publicación responsable. La versión pública incluye cuerpo_sanitizado, donde se anonimiza información potencialmente sensible (por ejemplo, correos, teléfonos y patrones fiscales/financieros) mediante marcadores y se desactivan URLs (defanged) para evitar clics accidentales. Adicionalmente, se ofrece un paquete de acceso restringido que conserva una representación más cercana al texto original, pero igualmente protegida mediante redacción de PII y defang de enlaces, con fines de auditoría y trazabilidad. El conjunto de datos se distribuye en CSV (UTF-8, separador “;”) y se acompaña de documentación (README) y un esquema JSON de columnas para facilitar reutilización. SpearPhishMX se publica exclusivamente para investigación defensiva en ciberseguridad, ML/NLP y explicabilidad; no debe emplearse para campañas ofensivas ni para reactivar/operacionalizar enlaces.

创建时间：

2026-02-15