boricua/qna-ocp-4.15
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/boricua/qna-ocp-4.15
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过对OpenShift 4.15 PDF文档中的内容生成问答对,并使用Mistral和Mixtral模型进行问题生成和答案生成,最后通过模型和人工验证筛选出高质量的问答对。数据集包含多个字段,如ID、问题、答案、文档来源、文档标题、文档页码、OpenShift版本、人工验证和模型验证等。
The dataset was created by William Caban and is licensed under Apache 2.0. It is generated by processing OpenShift 4.15 PDF documents, creating 5 Q&A pairs for each document page. The Mistral-7B-Instruct-v0.2 model was used to generate questions, and the Mixtral-8x22B-Instruct-v0.1 model was used to generate answers. The quality of the Q&A pairs was ensured through voting evaluation and human validation. The dataset includes multiple fields such as ID, question, answer, document source, document title, document page number, OpenShift version, human validation status, and model validation status.
提供机构:
boricua
原始信息汇总
数据集概述
基本信息
- 创建者: William Caban
- 许可证: Apache 2.0
- OpenShift 4.15 知识截止日期: 2024年4月12日
- 更新日期: 2024年7月3日
数据生成方法
- 为每个长度大于1500字符的OpenShift (OCP) 4.15 PDF页面生成5个问答对。
- 使用Mistral-7B-Instruct-v0.2生成问题。
- 使用Mixtral-8x22B-Instruct-v0.1从页面内容生成答案。
- 通过Mixtral-8x22B和Llama3-7B的投票评估问答对的质量,并移除低质量的条目。
- 移除包含特定短语或单词的问题。
数据集结构
- ID: (整数) 问答对的唯一ID。
- Question: (文本) 包含上下文的问题。
- Answer: (文本) 基于上下文的答案。
- doc_source: (文本) 提供问答对上下文的原始PDF文档的URL。
- doc_title: (文本) 文档标题,也是问题的主题。
- doc_page: (整数) 提供问答对上下文的PDF页面编号(从零开始)。
- ocp_version: (文本) 问答对相关的OpenShift版本。
- human_validated: (布尔值) 问答对是否已由人工验证。
- model_validated: (布尔值) 问答对是否已由模型验证。



