five

Kubermatic/cncf-question-and-answer-dataset-for-llm-training

收藏
Hugging Face2024-06-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Kubermatic/cncf-question-and-answer-dataset-for-llm-training
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为`cncf-qa-dataset-for-llm-tuning`,专为微调大型语言模型(LLMs)而设计,采用问答(QA)格式。数据来源于CNCF(云原生计算基金会)景观中各种项目仓库的PDF和Markdown文件。这些文件被处理并转换为QA格式,以便输入到LLM模型中。数据集包含六个列:问题、答案、项目、文件名、类别和子类别。类别和子类别分别表示项目的主要功能领域和更具体的分类。数据集的生成过程包括使用Python脚本从CNCF项目仓库中提取内容,并通过语言模型处理这些内容以创建问答对。数据集遵循MIT许可证。

This dataset, named `cncf-qa-dataset-for-llm-tuning`, is designed for fine-tuning large language models (LLMs) and is formatted in a question-answer (QA) style. The data is sourced from PDF and markdown (MD) files extracted from various project repositories within the CNCF (Cloud Native Computing Foundation) landscape. These files were processed and converted into a QA format to be fed into the LLM model. The dataset includes the following six columns: Question, Answer, Project, File Name, Category, and Subcategory. The Category and Subcategory represent the main functional area of the project and a more specific classification within the main category, respectively. The dataset was generated using a Python script that extracts content from CNCF project repositories and processes this content with a language model to create question-answer pairs. The dataset is available under the MIT license.
提供机构:
Kubermatic
原始信息汇总

CNCF QA Dataset for LLM Tuning

描述

该数据集名为 cncf-qa-dataset-for-llm-tuning,专为微调大型语言模型(LLMs)而设计,采用问答(QA)格式。数据来源于CNCF(云原生计算基金会)生态系统中各个项目仓库中的PDF和markdown(MD)文件。这些文件经过处理并转换为QA格式,以便输入到LLM模型中。

数据集包含以下六列:

  1. Question:从文件内容中提取的问题。
  2. Answer:对应问题的答案。
  3. Project:数据来源的项目名称。
  4. File Name:数据提取的文件名称。
  5. Category:项目的主要功能分类(例如,运行时、编排、存储、网络)。
  6. Subcategory:主要分类下的更具体分类(例如,容器运行时、服务网格、监控)。

生成方式

该数据集通过一个Python脚本生成,该脚本从CNCF项目仓库中的PDF和MD文件中提取内容。脚本使用语言模型处理这些内容,生成问答对。每条信息被转换为QA格式,并存储在结构化的CSV文件中,包含相关的元数据,如项目名称、文件名称、分类和子分类。

许可证

该数据集采用MIT许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作