ChineseliteratureDataset|古文献数据集|自然语言处理数据集
收藏ChineseliteratureDataset-中华经典文献数据集
项目简介
中华经典文献数据集旨在收集整理中华古籍和古文献文本数据,以填补优质古文相关的自然语言处理数据集的空白。数据集参考传统四部分类方法,以经史子集四大类和四库全书目录为基础分类方式,并做出适度调整。
数据集分类
- 经:四书五经
- 史:正史类、编年史类等12类
- 子:先秦诸子单独划分为诸子类,汉后相关学科划为对应学科类
- 集:未详细说明
数据集来源
本项目参考自中华经典古籍库、国学导航、中国哲学书电子书计划,试图收集整理数据化中华经典古文献与书籍。
引用信息
@misc{ChineseliteratureDataset, author = {Nursery}, title = {ChineseliteratureDataset}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/enze5088/ChineseliteratureDataset}}, }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录