科技文献分类标注实验数据集
收藏国家基础学科公共科学数据中心2025-12-06 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6931b016195d2658bc1e5f97&type=1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为研发“科技文献智能分类软件”而构建的实验与评测数据集,旨在实现对我国科技文献资源的自动化、精准化分类。数据来源于国家工程技术图书馆,由中国科学技术信息研究所提供,采集时间为2023年1月至2025年3月。数据集主要包含了经过专业人工标注的中文科技文献文本,其分类体系严格遵循《中国图书馆分类法》(中图法),覆盖了全部三级类目,部分甚至细至四级类目,为模型训练提供了丰富的类别标签。在制备过程中,项目采用了基于语义关系网络的知识对象挖掘技术,并结合了人工抽样校对,以确保标注质量。数据集规模为2万篇文献,体积约100MB,以CSV/JSON格式存储。该数据集的建立对提升科技文献知识组织的自动化水平和知识服务效率具有重要支撑意义。
提供机构:
中国科学技术信息研究所
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是为开发科技文献智能分类软件而构建的实验与评测数据集,包含2万篇经人工标注、遵循《中国图书馆分类法》体系的中文科技文献。数据来源于国家工程技术图书馆,采集于2023年至2025年,旨在支持自动化分类研究,提升知识组织效率。
以上内容由遇见数据集搜集并总结生成



