hangul-font-dataset|韩文字体数据集|深度学习数据集
收藏数据集概述
数据集名称
- Hangul-font-dataset:用于深度学习字体研究的韩文字体数据集。
数据集结构
- 数据字段:
- Image: 字符图像信息,以数组形式存储。
- Image size: 字符图像尺寸,存储为包含宽度和高度的元组。
- Font name: 字体名称。
- Family name: 字体族名称。
- Glyph id: 字体程序中定义的字符ID。
- Unicode: 字符的Unicode值。
- Width: 字符宽度。
- VWidth: 字符高度。
- Bound: 包围字符的矩形信息,存储为包含四个坐标的元组。
- Contour number: 字符轮廓数量。
- Weight: 字符粗细,以文字描述。
- TTFWeight: 字符粗细,以数值表示。
- SFD: 字体Spline数据库格式数据。
- Version: 字体程序版本。
- Copyright: 字体程序版权信息。
数据集内容
- 包含字体类型:
- gothic: 共31个哥特(Dotum)字体数据集。
- myeongjo: 共30个明体(Batang)字体数据集。
数据获取与制作
-
获取图像数据:
- 使用
python ./tools/array2img.py
脚本,通过指定输入和输出路径来获取字符图像数据。
- 使用
-
数据集制作:
- 环境要求:Python、Pandas、Numpy、Pillow、Pyarrow、Fonttools等库,以及Fontforge软件。
- 制作步骤:
- 使用Fontforge生成字体信息。
- 使用Python脚本生成字体数据集。
- 数据集将存储在
fonts/parquet
目录下,格式为Parquet。

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录