yahoo-inc/cve-impacts
收藏数据集概述
数据集名称
CVE_KeyPhrases
数据集描述
CVE_KeyPhrases 是一个包含已发布CVE的关键风险短语(针对影响、弱点、攻击)提取的数据集。
数据集内容
- 约230K已发布的CVE(排除标记为拒绝的CVE),涵盖至2024年4月3日的NVD发布日期。
- 包含CVE ID、描述文本和关键风险短语。
数据集特点
- 截至2024年4月,是最大的包含提取关键风险短语的CVE数据集,具有高精确度和召回率。
- 初始版本,未来将进行改进和丰富。
数据集用途
- 直接与CVE结合使用,如在CVE项目中。
- 用于训练ML模型进行命名实体识别或分类。
数据集结构
- CVE: 字符串,原始CVE ID。
- Description: 字符串,原始CVE描述,经过轻微清理(去除非ASCII字符和换行符)。
- KeyPhrases: 字符串列表,从描述中提取的表示影响、漏洞、攻击的短语。
数据集示例
"CVE","Description","KeyPhrases" "CVE-1999-0001","ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets.","[denial of service (crash or hang)]" "CVE-1999-0002","Buffer overflow in NFS mountd gives root access to remote attackers, mostly in Linux systems.","[buffer overflow, root access]" "CVE-1999-0003","Execute commands as root via buffer overflow in Tooltalk database server (rpc.ttdbserverd).","[buffer overflow, execute commands]"
数据集版本
0.1 初始发布
数据集引用
@software{, author = {Chris Madden, title = {{CVE_KeyPhrases}: A dataset of published CVE IDs and Descriptions with the Key Risk Phrases}, month = {April}, year = {2024}, url = {https://huggingface.co/yahoo-inc/datasets/CVE_KeyPhrases} }



