古诗词数据集|古诗词研究数据集|文化遗产数据集
收藏数据集概述
数据来源
- data目录:原始数据来源于chinese-poetry。
- data2目录:原始数据来源于Poetry。
主要工作
-
统一字体:
- 繁体转简体,少数生僻字保留繁体。
- 英文标点转中文标点。
-
ID映射:
- 使用原始数据中的id或序号,格式为文件名拼音#序号。
-
统一格式: json { "id": "caocao#1", "title": "度关山", "author": "曹操", "content": "..." }
-
修正过滤:
- 修正或过滤标题漏字、标题错误、内容多符号、内容缺失等情况。
- 移除注释。
修订记录
- data:
- 补充内容、删除多余标点、补全节选、删除多余注释等。
- 修正作者名、标题、内容中的错误。
- data2:
- 修正内容中的错别字。
完成清单
- data:
- 诗经 305
- 楚辞 65
- 曹操诗集 26
- 水墨唐诗 176
- 全唐诗 56315 / 57607
- 御定全唐诗 40552 / 43103
- 五代诗词 541 / 542
- 宋词 20270 / 21053
- 纳兰性德 258
- data2:
- 汉 328 / 363
- 魏晋 2947 / 3020
- 南北朝 4480 / 4586
- 隋 1146 / 1170
- 元 36362 / 37375
- 明 232357 / 236957
- 清 88474 / 89089
- 近现代 28135 / 28419

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
ISIC 2018
ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。
challenge2018.isic-archive.com 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录