Divya1214/TitanVul

Name: Divya1214/TitanVul
Creator: Divya1214
Published: 2026-04-06 22:29:38
License: 暂无描述

Hugging Face2026-04-06 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Divya1214/TitanVul

下载链接

链接失效反馈

官方服务：

资源简介：

--- # Dataset card metadata (Hugging Face Hub) language: - en task_categories: - text-classification - other tags: - security - vulnerability-detection - code - program-analysis - software-engineering - llm pretty_name: TitanVul dataset_type: code --- # Dataset Card for TitanVul TitanVul is a large-scale function-level vulnerability dataset constructed for training machine learning models for vulnerability detection. It consists of paired vulnerability-fix function samples aggregated from multiple public sources and validated using a multi-agent LLM framework. ## Dataset Details TitanVul is designed to provide high-quality training data that generalizes across vulnerability types and codebases. The dataset is built by aggregating seven public vulnerability datasets, followed by extensive deduplication and multi-agent LLM-based validation to reduce noise and improve label reliability. - **Curated by:** Yikun Li, Ngoc Tan Bui, Ting Zhang, Martin Weyssow, Chengran Yang, Xin Zhou, Jinfeng Jiang, Junkai Chen, Huihui Huang, Huu Hung Nguyen, Chiok Yew Ho, Jie Tan, Ruiyin Li, Yide Yin, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, David Lo - **Language(s):** Source code (multilingual). - **Paper:** arXiv:2507.21817 (Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses?) ## Dataset Structure TitanVul is released as a CSV archive containing function-level vulnerability-fix pairs: - Each sample represents a vulnerable function and its corresponding fixed version. - The dataset includes metadata aggregated from multiple public sources. - Deduplication is applied to reduce overlap across merged datasets. The released version contains **38,548** vulnerability-fix function pairs. ## Citation ```bibtex @article{li2025titanvul, title={Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses?}, author={Li, Yikun and Bui, Ngoc Tan and Zhang, Ting and Weyssow, Martin and Yang, Chengran and Zhou, Xin and Jiang, Jinfeng and Chen, Junkai and Huang, Huihui and Nguyen, Huu Hung and Ho, Chiok Yew and Tan, Jie and Li, Ruiyin and Yin, Yide and Ang, Han Wei and Liauw, Frank and Ouh, Eng Lieh and Shar, Lwin Khin and Lo, David}, journal={arXiv preprint arXiv:2507.21817}, year={2025} }

提供机构：

Divya1214

5,000+

优质数据集

54 个

任务类型

进入经典数据集