政务公开信息数据集
收藏DataCite Commons2025-05-16 更新2025-05-18 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=6d3b9baba5d849e1a0d3d3cbf46d641f
下载链接
链接失效反馈官方服务:
资源简介:
为构建政务大语言模型和领域知识库,本文从各官方信息发布网站中收集并整理了一个包含文档和问答对数据的综合性政务公开信息数据集.数据集中的大部分数据源自各政府门户网站及多个政务信息公开平台,部分问答对数据由 ChatGPT 3.5生成,并经人工筛选精炼得到.政务公开信息数据集包含 1900 篇公开政务相关文档和 10503 条问答对.
To build government affairs large language models and domain knowledge bases, this paper collects and organizes a comprehensive government public information dataset comprising document and question-answer pair data from various official information publishing websites. Most of the data in the dataset is sourced from various government portals and multiple government information disclosure platforms, while some question-answer pairs are generated by ChatGPT 3.5 and refined via manual screening. This government public information dataset contains 1900 public documents related to government affairs and 10503 question-answer pairs.
提供机构:
Science Data Bank
创建时间:
2025-05-16
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集旨在支持政务大语言模型和领域知识库的构建,包含1900篇政务文档和10503条问答对。数据主要来源于政府门户网站和政务信息公开平台,其中问答对部分由ChatGPT 3.5生成并经过人工精炼,确保了数据的多样性和质量。
以上内容由遇见数据集搜集并总结生成



