科技文献智能聚类实验数据集
收藏国家基础学科公共科学数据中心2025-12-06 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6931b015195d2658bc1e5f93&type=1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为支持“科技文献智能聚类软件”的研发与性能评测而专门构建的实验数据集,服务于科技文献的无监督主题发现与知识结构自动识别等研究需求。数据基础来源于国家工程技术图书馆的中文科技文献资源,由项目组在2023年至2025年期间于北京采集整理。数据集主要内容为科技文献的题录与摘要文本,并已由专业人员根据文献内容主题进行了聚类类别的人工标注。在数据制备上,项目通过构建知识对象间的语义关系网络并进行主题分析,来实现高质量的聚类基础,并辅以人工校对进行质量控制。数据集共包含2万篇文献,数据量约为100MB,存储为CSV/JSON格式。该数据集为开发不依赖于固定分类体系的智能聚类算法提供了关键数据支撑,对前沿热点探测和知识结构分析具有重要意义。
提供机构:
中国科学技术信息研究所



