five

CSL|学术文献数据集|数据分析数据集

收藏
github2024-05-22 更新2024-05-31 收录
学术文献
数据分析
下载链接:
https://github.com/P01son6415/chinese-scientific-literature-dataset
下载链接
链接失效反馈
资源简介:
CSL数据集包含396,209篇中文核心期刊论文的元信息,如标题、摘要、关键词、学科和门类。数据来源于国家科技资源共享服务工程技术研究中心,涵盖2010至2020年的期刊论文,分为13个门类和67个学科。

The CSL dataset encompasses metadata from 396,209 core Chinese journal articles, including titles, abstracts, keywords, disciplines, and categories. Sourced from the National Engineering Research Center for Science and Technology Resources Sharing Service, the dataset covers journal articles from 2010 to 2020, categorized into 13 broad categories and 67 specific disciplines.
创建时间:
2019-11-14
原始信息汇总

数据集概述

数据集名称

CSL: A Large-scale Chinese Scientific Literature Dataset

数据集描述

CSL数据集包含396,209篇中文核心期刊论文的元信息,包括标题、摘要、关键词、学科和门类。数据获取自国家科技资源共享服务工程技术研究中心,涵盖2010至2020年的期刊论文。数据集根据中文核心期刊目录筛选,并标注了13个门类(一级标签)和67个学科(二级标签)。

数据集内容

  • 数据总量:396,209条
  • 数据分布:详细分布如下表所示:
Category #d len(T) len(A) num(K) #Samples Discipline Examples
Engineering 27 19.1 210.9 4.4 177,600 Mechanics, Architecture, Electrical Science
Science 9 20.7 254.4 4.3 35,766 Mathematics, Physics, Astronomy, Geography
Agriculture 7 17.1 177.1 7.1 39,560 Crop Science, Horticulture, Forestry
Medicine 5 20.7 269.5 4.7 36,783 Clinical Medicine, Dental Medicine, Pharmacy
Management 4 18.7 157.7 6.2 23,630 Business Management, Public Administration
Jurisprudence 4 18.9 174.4 6.1 21,554 Legal Science, Political Science, Sociology
Pedagogy 3 17.7 179.4 4.3 16,720 Pedagogy, Psychology, Physical Education
Economics 2 19.5 177.2 4.5 11,558 Theoretical Economics, Applied Economics
Literature 2 18.8 158.2 8.3 10,501 Chinese Literature, Journalism
Art 1 17.8 170.8 5.4 5,201 Art
History 1 17.6 181.0 6.0 6,270 History
Strategics 1 17.5 169.3 4.0 3,555 Military Science
Philosophy 1 18.0 176.5 8.0 7,511 Philosophy
All 67 396,209

测评任务

  • 文本摘要(标题预测):输入摘要,预测标题。
  • 关键词生成:输入摘要和标题,预测关键词。
  • 论文门类分类:输入标题,预测门类。
  • 论文学科分类:输入摘要,预测学科。

数据集用途

CSL数据集可用于预训练语料和构建多种NLP任务,如文本摘要、关键词生成和文本分类等。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CSL数据集的构建基于国家科技资源共享服务工程技术研究中心提供的2010-2020年间发表的中文核心期刊论文元信息,经过严格筛选和标注,涵盖了13个门类和67个学科。数据集包含了396,209篇论文的标题、摘要、关键词、学科和门类信息,确保了数据的高质量和多样性。
使用方法
CSL数据集可用于预训练语料,也可直接应用于多种NLP任务。用户可以通过下载数据集,使用UER-py框架进行基线模型的微调,如T5、BART和Pegasus等。数据集提供了详细的任务数据集划分和使用示例,便于用户快速上手和实验。
背景与挑战
背景概述
CSL(Chinese Scientific Literature Dataset)是由李玉东、张宇晴、赵哲等研究人员在2022年创建的大型中文科学文献数据集,该数据集收录了2010年至2020年间发表于中文核心期刊的396,209篇论文的元信息,包括标题、摘要、关键词、学科和门类。CSL的构建旨在推动中文科学文献的自然语言处理研究,为文本摘要、关键词生成和文本分类等NLP任务提供丰富的预训练语料。该数据集的发布填补了中文科学文献数据集的空白,对学术界和工业界在中文科学文献处理方面具有重要影响。
当前挑战
CSL数据集在构建过程中面临多重挑战。首先,数据获取和筛选过程复杂,需从国家科技资源共享服务工程技术研究中心获取大量文献,并根据中文核心期刊目录进行严格筛选。其次,数据标注任务繁重,需为每篇论文标注13个门类和67个学科的标签,确保数据的准确性和一致性。此外,数据集的应用也面临挑战,如如何在多任务学习设置下有效利用数据进行模型训练,以及如何确保基线模型在中文科学文献处理任务中的性能。
常用场景
经典使用场景
CSL数据集在自然语言处理领域中被广泛应用于多种经典任务,如文本摘要、关键词生成和文本分类。通过提供大规模的中文科学文献数据,CSL数据集为研究人员提供了一个丰富的资源,用于训练和评估各种NLP模型。例如,文本摘要任务中,模型被训练来根据论文的摘要生成其标题,这一任务不仅有助于理解文献的核心内容,还能提升信息检索的效率。
解决学术问题
CSL数据集解决了中文科学文献处理中的多个关键学术问题,包括文本摘要生成、关键词提取和学科分类等。这些任务在学术研究中具有重要意义,因为它们直接关联到文献的快速理解和有效组织。通过提供高质量的标注数据,CSL数据集促进了相关算法的研发和优化,从而提升了中文科学文献处理的准确性和效率,推动了相关领域的技术进步。
实际应用
CSL数据集在实际应用中展现了其广泛的价值,特别是在学术搜索引擎、文献推荐系统和科研管理工具中。例如,通过利用CSL数据集训练的模型,学术搜索引擎能够更准确地匹配用户的查询与相关文献,提升搜索结果的相关性。此外,文献推荐系统可以根据用户的阅读历史和兴趣,推荐与其研究领域高度相关的论文,从而提高科研效率。
数据集最近研究
最新研究方向
在自然语言处理领域,CSL数据集的最新研究方向主要集中在多任务学习和跨学科应用上。该数据集不仅为中文科学文献的文本摘要、关键词生成和分类提供了丰富的资源,还推动了多任务学习模型的开发与优化。通过整合不同任务的数据,研究者们正在探索如何利用CSL数据集提升模型的泛化能力和效率。此外,CSL数据集的跨学科特性也吸引了众多研究者关注其在不同学科领域的应用潜力,特别是在工程、医学和计算机科学等领域的交叉研究中,CSL数据集为跨学科知识的融合与创新提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录