five

cdx-docs

收藏
Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/CycloneDX/cdx-docs
下载链接
链接失效反馈
官方服务:
资源简介:
CycloneDX Docs数据集包含了关于CycloneDX和cdxgen的众多知识文件,以jsonlines聊天格式存储。这些数据可用于训练和微调(LoRA和QLoRA)LLM模型。

The CycloneDX Docs dataset contains a large number of knowledge documents related to CycloneDX and cdxgen, stored in jsonlines chat format. This dataset can be used for training and fine-tuning (LoRA and QLoRA) LLM models.
创建时间:
2025-02-07
原始信息汇总

数据集概述

数据集名称

CycloneDX Docs for fine-tuning

数据集配置

  • 配置名称:default
  • 训练数据文件:
    • 分割:train
    • 路径:cdxgen-docs/readme.jsonl

许可证

Apache-2.0

任务分类

  • 问题回答
  • 文本生成
  • 摘要

语言

  • 英文 (en)

标签

  • cyclonedx
  • sbom
  • cdxgen
  • purl
  • mlbom
  • cbom
  • obom
  • security
  • compliance

数据规模

1K < n < 10K

数据生成

使用Google Gemini 2.0 Flash Experimental通过aistudio,将官方文档markdown文件转换为chat格式。

数据验证

数据经过手动验证和审查以确保准确性。

引用信息

@misc{cdx-docs, author = {OWASP CycloneDX Generator Team}, month = Feb, title = {{CycloneDX and cdxgen}}, howpublished = {{https://huggingface.co/datasets/CycloneDX/cdx-docs}}, year = {2025} }

数据集许可证

CC-0

赞助商

LevoLogo-LightBg

搜集汇总
数据集介绍
main_image_url
构建方式
CycloneDX Docs数据集的构建采用了将官方文档的markdown格式转换为jsonlines格式的创新方法。通过使用Google Gemini 2.0 Flash Experimental,结合预定义的提示,专家们生成了50个可能的问题及其详细解释,并将这些内容按照特定模板转化为纯文本的jsonlines格式。此过程经过人工验证与审核,以确保数据准确性。
特点
该数据集具有针对CycloneDX和cdxgen的丰富知识库,以jsonlines格式存储,便于机器学习模型的训练与微调。数据集覆盖了问题回答、文本生成和摘要等多种任务类别,且包含 cyclonedx、sbom、cdxgen 等相关标签,尺寸处于千级至万级范围内,适用于多种语言处理任务。
使用方法
用户可以通过访问Hugging Face平台获取CycloneDX Docs数据集。在获取数据后,用户可将其应用于LLM模型的训练与微调,如LoRA和QLoRA。数据集遵循Apache-2.0协议,允许用户在遵守协议的前提下自由使用和共享数据。
背景与挑战
背景概述
CycloneDX Docs数据集,由OWASP CycloneDX Generator团队于2025年创建,致力于为大型语言模型(LLM)的训练与微调提供知识基础。该数据集的核心研究问题是如何将CycloneDX和cdxgen的相关知识转化为机器可读的格式,进而服务于诸如问题解答、文本生成与摘要生成等任务。CycloneDX Docs在软件安全与合规性研究领域具有重要影响力,为相关领域的知识传播和技术进步提供了有力支持。
当前挑战
在构建CycloneDX Docs数据集的过程中,研究团队面临的挑战包括如何高效地将官方文档的Markdown格式转换为对话式的jsonlines格式,以及如何确保生成的数据既全面又准确。此外,数据集在解决软件安全领域问题的同时,还需应对如何保持数据更新、提高数据质量以及适应不断变化的领域需求等长期挑战。
常用场景
经典使用场景
在自然语言处理领域,CDX Docs数据集被广泛应用于模型训练与微调,特别是针对大型语言模型。其经典使用场景主要在于,通过提供关于CycloneDX和cdxgen的丰富知识文件,为LLM模型提供了充足的学习材料,从而在问答、文本生成、摘要等任务中实现性能的显著提升。
实际应用
在实际应用中,CDX Docs数据集被用于开发能够理解并处理软件安全信息的智能系统。这些系统可以自动识别和报告软件包中的安全问题,为软件开发和维护过程中的风险管理提供了强有力的支持。
衍生相关工作
基于CDX Docs数据集,衍生出了一系列相关研究工作。这些研究涉及利用数据集进行模型训练,以实现对软件安全缺陷的自动检测、软件合规性验证等任务的自动化工具开发,进一步扩展了数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作