关于公布2021年常州市中小学生“好书伴我成长”读书活动获奖名单的通知|教育活动数据集|获奖名单数据集
收藏PRBench
PRBench是一个大规模专家标注的专业领域高风险推理基准测试数据集,当前版本覆盖法律和金融领域。包含1,100个专家编写的跨金融和法律领域的对话,19,356个专家策划的评估标准(每个任务10-30条),覆盖114个国家、47个美国司法管辖区和25个专业主题,并包含最具挑战性任务的硬子集(Finance-300, Legal-250)。
github 收录
核电厂焊缝射线质量智能评定模型数据
1.对核电厂焊缝射线质量、缺陷进行智能精准识别与评定,为核电厂焊缝射线质量智能评定模型提供训练数据,提高核电厂焊缝射线评定标准的准确性,进一步提升核电厂焊缝射线质量。 2.能够为核电厂焊缝质量控制提供决策依据,通过焊缝质量、缺陷训练数据持续优化模型检测标准,进一步保障核电站设备安全和长期稳定运行。数据收集和处理: 步骤1数据收集:方式一:通过使用数字射线检测设备采集获取原始焊缝图像数据;方式二:通过高分辨率扫描设备对传统射线底片影像数据转化为原始焊缝图像数据。 步骤2数据处理:对收集到的原始焊缝图像数据进行图像预处理,去除图像噪声、矫正图像畸变,统一图像尺寸(将图像的高度(imageHeight)和宽度(imageWidth)统一为3580×780(像素),确保原始焊缝图像数据质量和一致性。 步骤3数据标注:使用图像标注工具对原始焊缝图像数据的Filename(文件名)、Shapes(形状)、imagePath(路径)、imageData(图像数据)、imageHeight(图像高度)、imageWidth(图像宽度)等字段进行数据标注。其中:Filename(文件名)按照image_XXX.json按序号依次标注;Shapes(形状)字段中的label(标签)用于标注缺陷类型,缺陷类型标签包括5个缺陷等级:liewen(裂纹)、qikong(气孔)、jiazha(夹渣)、weironghe(未熔合)、weihantou(未焊透),points(位置)用于标记缺陷在图像中的位置,通过坐标的形式进行标注,shape_type(形状类型)为用于框选缺陷的形状,在本数据标注过程中均使用rectangle(矩形)框进行框选,在同一个焊缝图像数据中可能存在多个缺陷,在进行数据标注的过程中Shapes(形状)可能包含多个缺陷;imagePath(路径)用于标记生成标注文件的存储位置,存储在图像的同一路径(文件夹)下;imageData(图像数据)为对通过数据收集阶段获取到的原始焊缝图像数据进行标注,按照image_XXX.tiff进行命名存储;对图像高度(imageHeight)和宽度(imageWidth)分别标注为3580和780。通过以上数据标注过程确保为后续模型训练提供高质量的标注数据。 通过使用核电厂焊缝射线质量智能评定模型数据能够构建例如:卷积神经网络(CNN)的自动识别模型,实现核电厂焊缝射线图像缺陷的自动识别并和缺陷类型的标注,辅助人工评定工作,提升检测效率和准确度。
浙江省数据知识产权登记平台 收录
MNBVC
MNBVC数据集是一个超大规模的中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
