有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
CSL: A Large-scale Chinese Scientific Literature Dataset
CSL数据集包含396,209篇中文核心期刊论文的元信息,包括标题、摘要、关键词、学科和门类。数据获取自国家科技资源共享服务工程技术研究中心,涵盖2010至2020年的期刊论文。数据集根据中文核心期刊目录筛选,并标注了13个门类(一级标签)和67个学科(二级标签)。
Category | #d | len(T) | len(A) | num(K) | #Samples | Discipline Examples |
---|---|---|---|---|---|---|
Engineering | 27 | 19.1 | 210.9 | 4.4 | 177,600 | Mechanics, Architecture, Electrical Science |
Science | 9 | 20.7 | 254.4 | 4.3 | 35,766 | Mathematics, Physics, Astronomy, Geography |
Agriculture | 7 | 17.1 | 177.1 | 7.1 | 39,560 | Crop Science, Horticulture, Forestry |
Medicine | 5 | 20.7 | 269.5 | 4.7 | 36,783 | Clinical Medicine, Dental Medicine, Pharmacy |
Management | 4 | 18.7 | 157.7 | 6.2 | 23,630 | Business Management, Public Administration |
Jurisprudence | 4 | 18.9 | 174.4 | 6.1 | 21,554 | Legal Science, Political Science, Sociology |
Pedagogy | 3 | 17.7 | 179.4 | 4.3 | 16,720 | Pedagogy, Psychology, Physical Education |
Economics | 2 | 19.5 | 177.2 | 4.5 | 11,558 | Theoretical Economics, Applied Economics |
Literature | 2 | 18.8 | 158.2 | 8.3 | 10,501 | Chinese Literature, Journalism |
Art | 1 | 17.8 | 170.8 | 5.4 | 5,201 | Art |
History | 1 | 17.6 | 181.0 | 6.0 | 6,270 | History |
Strategics | 1 | 17.5 | 169.3 | 4.0 | 3,555 | Military Science |
Philosophy | 1 | 18.0 | 176.5 | 8.0 | 7,511 | Philosophy |
All | 67 | 396,209 |
CSL数据集可用于预训练语料和构建多种NLP任务,如文本摘要、关键词生成和文本分类等。
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录