five

政策主题分类数据|政策文本分类数据集|自然语言处理数据集

收藏
浙江省数据知识产权登记平台2024-08-09 更新2024-08-10 收录
政策文本分类
自然语言处理
下载链接:
https://www.zjip.org.cn/home/announce/trends/48726
下载链接
链接失效反馈
资源简介:
政策公文主题分类是政府治理现代化的重要手段之一,对提升政府治理能力和社会管理服务水平具有重要意义。通过对政策文本进行主题分类,可以更快的响应用户政策检索需求,进一步提高工作效率。1.数据采集:从不同类型的政务公开网站上间隔性获取最新的政策公文,将其中的政策文本数据进行保存。 2.数据清洗:对采集的政策文本数据进行数据清洗,仅保留可用的政策公文信息。剔除文本数据中可能存在的URL、IP地址、电子邮件、手机号码、电话号码、身份证号码信息;剔除无效的政策文本数据,判断标准为汉字数量是否少于10、符号比例是否低于50%、中英文字符和数字的占有比例是低于10%、中文字符比例是否低于10%。 3.数据主题分类:对清洗好的政策文本数据,使用训练好的Bert变体模型进行政策主题分类。首先,使用BPE算法对政策文本数据进行分词后,对切分的子词进行向量化后作为Bert变体模型的编码器的输入。之后,将编码器中的多层Transformer中得到的上下文信息经过分类头得到每个政策主题的概率。最终,取概率最高的主题作为当前政策的主题。
提供机构:
杭州城市大脑有限公司
创建时间:
2024-07-16
AI搜集汇总
数据集介绍
main_image_url
特点
该数据集是由杭州城市大脑有限公司提供的政策主题分类数据,包含2528条每日更新的政策文本信息,每条数据详细记录了政策编号、主题列表及分类概率,应用于政府公文主题分类场景,采用Bert变体模型进行自动化分类处理。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录