i-dot-ai/govuk-policy-qa-pairs
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/i-dot-ai/govuk-policy-qa-pairs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于英国政府政策文件合成生成的问题和答案对的数据集。数据集分为两部分:1. 从Gov.uk政策文件和咨询页面抓取的纯文本英国政府政策文件;2. 使用llama_index.finetuning.generate_qa_embedding_pairs和OpenAI GPT3.5 Turbo生成的一系列问题和答案对。
This is a dataset of synthetically generated question and answer pairs on UK government policy papers. It comes in 2 parts: 1. Plain text UK government policy papers, scraped from the Gov.uk Policy papers and consultations page; 2. A series of question and answer pairs on chunks of the above documents, generated using llama_index.finetuning.generate_qa_embedding_pairs and OpenAI GPT3.5 Turbo.
提供机构:
i-dot-ai
原始信息汇总
数据集概述
基本信息
- 名称: govuk-policy-qa-pairs
- 别名: i-dot-ai/govuk-policy-qa-pairs
- 描述: 这是一个关于英国政府政策文件的合成生成问题和答案对的数据集。它包括两部分:
- 从Gov.uk政策文件和咨询页面抓取的纯文本英国政府政策文件,存储在results.json中。
- 使用llama_index.finetuning.generate_qa_embedding_pairs和OpenAI GPT3.5 Turbo生成的关于上述文档块的问题和答案对。
创建者
- 组织: Incubator for Artificial Intelligence
- 链接: Incubator for Artificial Intelligence
关键词
- mit
- 10K - 100K
- parquet
- Text
- Datasets
- pandas
- Croissant
- 🇺🇸 Region: US
许可证
- 类型: MIT License
- 链接: MIT License
数据格式
- 格式: Parquet
- 描述: 数据集以Parquet格式存储,由HF Mirror转换(参见:HF Mirror Parquet转换文档)。
数据集结构
- 默认子集:
- 描述: i-dot-ai/govuk-policy-qa-pairs - default subset
- 分割: train, val
- 字段:
- query: 来自HF Mirror Parquet文件的query列。
- answer: 来自HF Mirror Parquet文件的answer列。
数据集分布
-
Git仓库:
- 名称: repo
- 描述: HF Mirror git仓库。
- 链接: HF Mirror git仓库
- 格式: git+https
-
Parquet文件集:
- 名称: parquet-files-for-config-default
- 描述: 由HF Mirror转换的基础Parquet文件。
- 包含: default//.parquet
- 格式: application/x-parquet



