CNKI中文论文Meta信息数据集|学术文献数据集|数据分析数据集

github2024-05-24 更新2024-05-31 收录

学术文献

数据分析

下载链接：

https://github.com/fondoger/scholar_dataset

下载链接

链接失效反馈

资源简介：

包含216万中文论文的Meta信息，包括标题、摘要、关键字、被引用数、作者、发表时间、机构、期刊等信息。

This dataset encompasses metadata from 2.16 million Chinese academic papers, including titles, abstracts, keywords, citation counts, authors, publication dates, institutions, and journal information.

创建时间：

2020-06-04

原始信息汇总

CNKI中文论文Meta信息数据集概述

数据集内容

216万中文论文Meta信息数据集
- 包含信息：标题、摘要、关键字、被引用数、作者、发表时间、机构、期刊等。
- 数据量：216万条记录。
83万项知网学者公开信息数据集
- 包含信息：姓名、从事领域、研究方向、被引用数、G影响指数、H影响指数等。
- 数据量：83万条记录。
8万项百度百科学者词条数据集
- 包含信息：结构化存储的百度百科词条上的文本内容。
- 数据量：8万条记录。
1.4万项知网与百科精确匹配数据集
- 包含信息：针对知网学者和百科学者取交集，并合并双方字段得到的数据集。
- 数据量：1.4万条记录。

数据样例

样例内容：包括标题、作者、发表时间、摘要、关键字等详细信息。
样例格式：JSON格式。

数据集下载

下载地址：https://pan.baidu.com/s/1AwJzfW1Nx-xJkEesIWNUaQ
提取码：6fb6

版权声明

使用限制：仅供学术研究使用。

AI搜集汇总

数据集介绍

构建方式

CNKI中文论文Meta信息数据集的构建，源于对中文学术资源深度挖掘的需求。通过精心设计的爬虫程序，该数据集从中国知网（CNKI）中提取了超过216万篇中文论文的Meta信息，涵盖标题、摘要、关键字、被引用数、作者、发表时间、机构、期刊等关键字段。此外，数据集还包括83万项知网学者公开信息和8万项百度百科学者词条数据，以及1.4万项知网与百科精确匹配数据。这些数据经过多轮清洗和结构化处理，确保了信息的准确性和完整性。

特点

CNKI中文论文Meta信息数据集的显著特点在于其庞大的规模和丰富的信息维度。该数据集不仅包含了论文的基本信息，还整合了学者的公开信息和百度百科词条，形成了多层次、多角度的学术资源网络。此外，数据集的结构化设计使得数据检索和分析变得高效便捷，为学术研究提供了强有力的数据支持。

使用方法

使用CNKI中文论文Meta信息数据集，研究者可以通过访问提供的下载链接获取数据。在正式使用前，建议先查看GitHub仓库中的小样本数据，以熟悉数据格式和内容。数据集适用于多种学术研究场景，如文献计量分析、学者影响力评估、研究趋势预测等。通过编程工具如Python，研究者可以轻松导入数据并进行进一步的分析和挖掘。

背景与挑战

背景概述

CNKI中文论文Meta信息数据集是由一位研究生在完成毕业设计过程中创建的，旨在填补中文论文数据集的空白。该数据集包含了216万篇中文论文的Meta信息，涵盖标题、摘要、关键字、被引用数、作者、发表时间、机构、期刊等详细信息。此外，数据集还包含了83万项知网学者公开信息和8万项百度百科学者词条数据，以及1.4万项知网与百科精确匹配数据。这些数据的收集和整理为学术研究提供了丰富的资源，特别是在中文文献的检索和分析方面，具有重要的应用价值。

当前挑战

CNKI中文论文Meta信息数据集在构建过程中面临了多重挑战。首先，数据的获取是通过爬虫技术实现的，这要求开发者具备高超的爬虫编程技能，同时需要处理各种异常情况以避免被封禁。其次，数据的清洗和整合也是一个复杂的过程，尤其是将知网和百度百科的数据进行精确匹配，需要高度的数据处理能力。此外，数据集的规模庞大，如何高效地存储和检索这些数据也是一个技术难题。最后，数据集的使用需严格遵守版权规定，确保仅用于学术研究，这也增加了数据管理的复杂性。

常用场景

经典使用场景

在学术研究领域，CNKI中文论文Meta信息数据集被广泛应用于文献计量学分析。通过该数据集，研究者可以深入挖掘论文的引用网络、作者合作关系以及学科发展趋势。例如，研究者可以利用数据集中的被引用数和作者信息，构建学术影响力模型，评估学者的学术贡献和研究方向的影响力。此外，数据集中的关键词和摘要信息也为文本挖掘和主题建模提供了丰富的素材，有助于识别新兴研究领域和热点话题。

解决学术问题

CNKI中文论文Meta信息数据集为学术界提供了一个全面的数据资源，解决了文献检索和学术影响力评估中的诸多难题。首先，数据集中的详细元信息，如标题、摘要和关键词，极大地提高了文献检索的准确性和效率。其次，通过分析被引用数和作者信息，研究者可以更准确地评估学术成果的影响力和学者的学术地位。此外，数据集还为跨学科研究提供了便利，通过整合不同学科的论文信息，促进学科间的交叉与融合。

衍生相关工作

CNKI中文论文Meta信息数据集的发布，催生了大量相关的研究工作。例如，基于该数据集的文献计量学研究，开发了多种学术影响力评估模型和算法，推动了学术评价体系的科学化。同时，数据集也为自然语言处理和机器学习领域的研究提供了丰富的语料库，促进了文本挖掘和知识图谱构建技术的发展。此外，数据集的公开还激发了跨学科研究的兴趣，推动了不同学科间的知识交流与合作。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

Lending Club Loan Data

该数据集包含贷款申请人的各种属性及其贷款状态。关键列包括贷款金额、贷款期限、利率、年收入、贷款等级、贷款目的、债务收入比、贷款发放年份、住房所有权和贷款状态。

github 收录

PU Dataset

德国帕德博恩大学（PU）轴承故障诊断数据集提供了丰富的轴承故障信号数据，包括内圈、外圈和滚动体故障等多种类型的轴承故障。与其他数据集相比，PU数据集的特色在于包含了大量的电机驱动系统故障数据，为轴承故障诊断研究提供了一个全面的实验平台。

github 收录

Global Urban Boundaries (GUB)

Global Urban Boundaries (GUB) 数据集包含了全球城市边界的详细信息，提供了高分辨率的城市边界数据，用于分析城市化进程和城市扩张。

datacatalog.worldbank.org 收录