iobhunter_open_dataset.vtclean.csv

github2025-12-04 更新2025-12-05 收录

下载链接：

https://github.com/dpliu/iobhunter-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于论文的部分FP案例，这些案例由第三方（VirusTotal、Spamhaus、URLhaus、Abuse.ch）检测，并被第三方翻转为良性（即也被第三方视为FP）。每个案例包含五个字段：实体（FP域名）、接受状态（始终为yes）、检测日期、处理日期和VirusTotal评分（始终为0）。

This dataset contains partial false positive (FP) cases for academic papers. These cases were first detected by third-party platforms including VirusTotal, Spamhaus, URLhaus, and Abuse.ch, and were subsequently reclassified as benign by these same platforms, which also confirms that these parties identified these cases as false positives. Each case includes five fields: the entity (FP domain name), acceptance status (always "yes"), detection date, processing date, and VirusTotal score (always 0).

创建时间：

2025-11-28

原始信息汇总

数据集概述

数据集基本信息

数据集名称：iobhunter-dataset
关联论文：Indicator of Benignity: An Industry View of False Positive in Malicious Domain Detection and its Mitigation
论文发表会议：Network and Distributed System Security (NDSS) Symposium 2026
数据来源：Palo Alto Networks 研究人员处理的误报案例
数据文件：iobhunter_open_dataset.vtclean.csv

数据集内容说明

数据性质：该数据集是论文所用误报数据集的一部分，包含被第三方安全情报源（VirusTotal, Spamhaus, URLhaus, Abuse.ch）检测为恶意，但随后被第三方翻转为良性的域名（即也被第三方认为是误报）。
数据限制：
- 仅包含由第三方情报源检测到的误报案例。
- 不包含用户提交的误报报告中的评论，因其可能涉及敏感或个人身份信息。

数据格式

数据文件 iobhunter_open_dataset.vtclean.csv 为CSV格式，每行代表一个报告的误报案例，包含以下五个字段：

entity：被第三方检测到的完全限定域名（FQDN），即误报域名。
accepted：固定为 yes，表示被Palo Alto Networks研究人员接受为真实误报。
detection_date：该FQDN被检测到的日期。
cr_date：报告的FQDN被Palo Alto Networks研究人员处理的日期。
vt_score：固定为 0，表示在数据集编译时（2025年12月02日）VirusTotal检测为清洁。

数据注意事项

重复条目：部分实体存在重复条目，这是由于同一实体有多个误报变更请求（CR）所致。这些重复的误报CR大多在Palo Alto Networks研究人员接受或拒绝前的24小时内（少数在3天内）报告。这些重复的CR具有相同的 cr_date，即报告实体验证结果被翻转的日期。

引用信息

如需引用，请使用以下BibTeX条目：

@article{liu2025iobhunter, title={Indicator of Benignity: An Industry View of False Positive in Malicious Domain Detection and its Mitigation}, author={Liu, Daiping and Sun, Danyu and Chen, Zhenhua and Wang, Shu and Li, Zhou}, journal={Network and Distributed System Security (NDSS) Symposium}, year={2026} }

搜集汇总

数据集介绍

构建方式

在恶意域名检测领域，误报问题一直是影响系统准确性的关键挑战。iobhunter_open_dataset.vtclean.csv数据集的构建依托于第三方威胁情报平台，包括VirusTotal、Spamhaus、URLhaus和Abuse.ch，专门收集被这些平台标记为恶意但后续被判定为良性的域名实例。数据采集过程遵循严格的行业合规标准，仅包含经第三方确认并翻转分类的误报案例，同时剔除了涉及用户敏感信息的评论内容，确保数据的合法性与隐私保护。每条记录涵盖完整域名、检测日期、处理日期及VirusTotal清洁评分等结构化字段，并通过帕洛阿尔托网络研究人员的专业审核，确保误报判定的权威性。

使用方法

研究人员可利用该数据集深入探索恶意域名检测系统中误报的成因与缓解技术。通过分析误报域名的时序特征与第三方检测记录，能够评估不同威胁情报源的一致性差异，并开发更精准的误报过滤模型。在实践应用中，数据集可作为基准测试工具，用于验证域名分类算法的鲁棒性，或训练机器学习模型以区分恶意与良性域名，从而降低安全运营中的误判率。使用时应结合原始论文的学术框架，注意数据的时间局限性，并遵循引文规范以保障研究的可复现性。

背景与挑战

背景概述

随着网络威胁日益复杂化，恶意域名检测成为网络安全领域的关键研究方向。由Palo Alto Networks研究人员于2025年构建的iobhunter_open_dataset.vtclean.csv数据集，聚焦于第三方威胁情报源（如VirusTotal、Spamhaus等）产生的误报案例，旨在系统性地分析恶意域名检测中的假阳性问题。该数据集作为NDSS 2026研讨会论文《Indicator of Benignity: An Industry View of False Positive in Malicious Domain Detection and its Mitigation》的支撑数据，通过记录被第三方标记为恶意但最终被验证为良性的域名实例，为优化检测模型、降低误判率提供了实证基础，推动了工业界对检测系统可靠性的深入探索。

当前挑战

该数据集致力于解决恶意域名检测中假阳性率过高的核心挑战，即如何准确区分良性域名与恶意域名，以减少安全运营中的干扰和资源浪费。在构建过程中，研究人员面临多重困难：首先，数据来源受限于公司政策与法律要求，仅能共享由第三方检测且被第三方确认为误报的案例，导致数据覆盖范围可能不够全面；其次，原始报告中的用户评论因包含敏感或个人身份信息而无法公开，削弱了上下文分析的深度；此外，数据集中存在因多次报告产生的重复条目，虽经时间窗口筛选，但仍需谨慎处理以确保数据一致性。这些挑战共同凸显了在隐私合规与数据效用间取得平衡的复杂性。

常用场景

经典使用场景

在恶意域名检测领域，误报问题长期困扰着安全系统的精准性。iobhunter_open_dataset.vtclean.csv数据集通过收集第三方安全平台（如VirusTotal、Spamhaus等）标记为恶意但后续被翻转为良性的域名实例，为研究者提供了一个标准化的误报分析基准。该数据集常用于评估和优化检测模型，帮助识别导致误判的特征模式，从而提升分类器的鲁棒性与可靠性。

解决学术问题

该数据集直接针对恶意域名检测中误报率高的核心学术难题，通过实证数据揭示了传统检测方法在区分恶意与良性域名时的局限性。它使研究者能够系统分析误报成因，如过度依赖威胁情报或特征提取偏差，进而推动更精细的检测算法设计。其意义在于促进了安全领域从单纯追求检测率向平衡精度与误报的范式转变，为构建可信赖的自动化防御体系提供了数据支撑。

实际应用

在实际网络安全运营中，该数据集被广泛应用于优化企业级威胁检测管道。安全团队可依据这些误报案例调整规则引擎或机器学习模型阈值，减少对正常业务域名的干扰，提升运维效率。同时，它支持安全产品厂商进行内部验证，降低客户因误报引发的服务中断风险，增强了检测系统的实用性与用户信任度。

数据集最近研究