cdx-docs
收藏Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/CycloneDX/cdx-docs
下载链接
链接失效反馈官方服务:
资源简介:
CycloneDX Docs数据集包含了关于CycloneDX和cdxgen的众多知识文件,以jsonlines聊天格式存储。这些数据可用于训练和微调(LoRA和QLoRA)LLM模型。
The CycloneDX Docs dataset contains a large number of knowledge documents related to CycloneDX and cdxgen, stored in jsonlines chat format. This dataset can be used for training and fine-tuning (LoRA and QLoRA) LLM models.
创建时间:
2025-02-07
原始信息汇总
数据集概述
数据集名称
CycloneDX Docs for fine-tuning
数据集配置
- 配置名称:default
- 训练数据文件:
- 分割:train
- 路径:cdxgen-docs/readme.jsonl
许可证
Apache-2.0
任务分类
- 问题回答
- 文本生成
- 摘要
语言
- 英文 (en)
标签
- cyclonedx
- sbom
- cdxgen
- purl
- mlbom
- cbom
- obom
- security
- compliance
数据规模
1K < n < 10K
数据生成
使用Google Gemini 2.0 Flash Experimental通过aistudio,将官方文档markdown文件转换为chat格式。
数据验证
数据经过手动验证和审查以确保准确性。
引用信息
@misc{cdx-docs, author = {OWASP CycloneDX Generator Team}, month = Feb, title = {{CycloneDX and cdxgen}}, howpublished = {{https://huggingface.co/datasets/CycloneDX/cdx-docs}}, year = {2025} }
数据集许可证
CC-0
赞助商

搜集汇总
数据集介绍

构建方式
CycloneDX Docs数据集的构建采用了将官方文档的markdown格式转换为jsonlines格式的创新方法。通过使用Google Gemini 2.0 Flash Experimental,结合预定义的提示,专家们生成了50个可能的问题及其详细解释,并将这些内容按照特定模板转化为纯文本的jsonlines格式。此过程经过人工验证与审核,以确保数据准确性。
特点
该数据集具有针对CycloneDX和cdxgen的丰富知识库,以jsonlines格式存储,便于机器学习模型的训练与微调。数据集覆盖了问题回答、文本生成和摘要等多种任务类别,且包含 cyclonedx、sbom、cdxgen 等相关标签,尺寸处于千级至万级范围内,适用于多种语言处理任务。
使用方法
用户可以通过访问Hugging Face平台获取CycloneDX Docs数据集。在获取数据后,用户可将其应用于LLM模型的训练与微调,如LoRA和QLoRA。数据集遵循Apache-2.0协议,允许用户在遵守协议的前提下自由使用和共享数据。
背景与挑战
背景概述
CycloneDX Docs数据集,由OWASP CycloneDX Generator团队于2025年创建,致力于为大型语言模型(LLM)的训练与微调提供知识基础。该数据集的核心研究问题是如何将CycloneDX和cdxgen的相关知识转化为机器可读的格式,进而服务于诸如问题解答、文本生成与摘要生成等任务。CycloneDX Docs在软件安全与合规性研究领域具有重要影响力,为相关领域的知识传播和技术进步提供了有力支持。
当前挑战
在构建CycloneDX Docs数据集的过程中,研究团队面临的挑战包括如何高效地将官方文档的Markdown格式转换为对话式的jsonlines格式,以及如何确保生成的数据既全面又准确。此外,数据集在解决软件安全领域问题的同时,还需应对如何保持数据更新、提高数据质量以及适应不断变化的领域需求等长期挑战。
常用场景
经典使用场景
在自然语言处理领域,CDX Docs数据集被广泛应用于模型训练与微调,特别是针对大型语言模型。其经典使用场景主要在于,通过提供关于CycloneDX和cdxgen的丰富知识文件,为LLM模型提供了充足的学习材料,从而在问答、文本生成、摘要等任务中实现性能的显著提升。
实际应用
在实际应用中,CDX Docs数据集被用于开发能够理解并处理软件安全信息的智能系统。这些系统可以自动识别和报告软件包中的安全问题,为软件开发和维护过程中的风险管理提供了强有力的支持。
衍生相关工作
基于CDX Docs数据集,衍生出了一系列相关研究工作。这些研究涉及利用数据集进行模型训练,以实现对软件安全缺陷的自动检测、软件合规性验证等任务的自动化工具开发,进一步扩展了数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



