ru_sci_bench_zho_multiclass

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/mlsa-iai-msu-lab/ru_sci_bench_zho_multiclass

下载链接

链接失效反馈

官方服务：

资源简介：

RuSciBenchZhoClassification数据集用于预测科学文章的主要语义类别。数据集从sciencechina.cn收集而来，包括文章的标题、摘要和一个或多个主题标签。经过聚类和手动验证，去除了与其他类别语义距离较远的标签，最终形成了只包含单一类别文章的训练集和测试集。

创建时间：

2025-11-29

原始信息汇总

RuSciBenchZhoClassification 数据集概述

数据集基本信息

数据集名称：RuSciBenchZhoClassification
来源网站：sciencechina.cn
主要任务：文本分类（预测科学文章的主要语义类别）
许可证：MIT
支持语言：中文（zh）、英文（en）

数据内容与结构

特征字段：
- text：字符串类型，代表文章内容。
- label：字符串类型，代表文章的分类标签。
数据划分：
- 训练集（train）：6400 个样本，大小约 4153169 字节。
- 测试集（test）：1600 个样本，大小约 1054079 字节。
总体规模：
- 下载大小：3074475 字节。
- 数据集总大小：5207248 字节。

数据构建过程

原始数据：从 sciencechina.cn 收集科学文章，包含标题、摘要及多个主题标签，原始元数据包含 90 个独立标签。
标签处理：
- 使用 DeepSeek v3.1 对标签进行聚类。
- 进行人工验证。
- 将语义上与主要群组距离较远的标签归入“其他”类别。
最终筛选：
- 排除“其他”类别。
- 仅保留与单一高级类别关联的文章。
- 划分训练集和测试集，并平衡类别规模以确保公平评估。

评估方法

评估库：需安装特定版本的 MTEB（mlsa-iai-msu-lab/ru_sci_bench_mteb 仓库的 ruscibench 分支）。
评估代码示例：提供了使用 sentence-transformers/all-MiniLM-L6-v2 模型进行评估的 Python 代码片段。

搜集汇总

数据集介绍

构建方式

在科学文献分类领域，RuSciBenchZhoClassification数据集的构建体现了严谨的学术数据工程流程。该数据集源自sciencechina.cn平台，初始收集了包含标题、摘要及多主题标签的科学文章元数据，共涵盖90个独特标签。通过采用DeepSeek v3.1模型进行语义聚类分析，将原始标签整合为逻辑连贯的类别体系，并辅以人工验证确保分类合理性。语义偏离主要群体的标签被归入“其他”类别，最终为保障分类任务的清晰度，该类别被排除在外。数据集进一步筛选出仅属于单一高级类别的文章，并按平衡的类别规模划分为训练集与测试集，为模型评估奠定了公正的数据基础。

使用方法

对于研究者而言，该数据集可通过MTEB评估框架进行便捷的模型性能评测。使用前需安装特定版本的ru_sci_bench_mteb库，随后导入任务并加载待评估的文本嵌入模型，例如SentenceTransformer系列。通过调用mteb.evaluate函数，指定RuSciBenchZhoClassification任务，即可自动化完成模型在测试集上的分类性能计算与指标输出。这一流程高度集成，既支持快速基准测试，也便于跨模型对比，为科学文献分类领域的技术迭代提供了高效、可复现的评估方案。

背景与挑战

背景概述

在科学文献信息管理领域，对学术文章进行精确的语义分类是提升知识检索与组织效率的关键。RuSciBenchZhoClassification数据集应运而生，由研究团队基于sciencechina.cn平台收集的学术文章构建，旨在预测科学文献的核心语义类别。该数据集通过整合文章标题、摘要及多主题标签，并借助DeepSeek v3.1进行聚类分析与人工验证，将原始90个标签归纳为连贯的高层类别，同时排除“其他”类别以确保分类纯度。其创建体现了对中文科学文本结构化处理的深入探索，为自然语言处理在学术领域的应用提供了重要基准，推动了文本分类技术在多语言科学文献中的发展。

当前挑战

该数据集致力于解决科学文献多类别文本分类的挑战，其核心问题在于如何准确识别与划分跨学科、语义复杂的学术文章。构建过程中，研究团队面临多重困难：原始标签数量众多且存在语义重叠，需通过聚类算法与人工干预实现类别融合与清理；为确保数据质量，必须剔除边缘类别并筛选单一高层类别的文章，这一过程涉及细致的语义判别与平衡处理。此外，数据集的构建需兼顾类别分布的均衡性，以支持模型评估的公平性，这对采样策略与数据分割提出了较高要求。

常用场景

经典使用场景

在科学文献分类领域，RuSciBenchZhoClassification数据集为多类别文本分类任务提供了标准化的评估基准。该数据集源自中国科学网（sciencechina.cn）收录的学术文章，涵盖标题、摘要及多主题标签，经过深度聚类与人工验证处理，形成了语义连贯的类别体系。其经典使用场景包括训练和评估自然语言处理模型对中文科学文献进行自动主题归类，广泛应用于学术搜索引擎、文献管理系统及知识图谱构建中，以提升科学信息的组织与检索效率。

解决学术问题

该数据集有效解决了科学文献领域多标签分类中的语义模糊与类别不平衡问题。通过DeepSeek v3.1聚类结合人工验证，将原始90个标签整合为清晰的高层类别，并排除“其他”类别以提升分类精度。这一处理方式为研究者提供了高质量的中文科学文本分类基准，推动了跨语言科学文献处理、细粒度主题建模以及领域自适应学习等研究方向的发展，对促进科学知识的结构化与可计算化具有重要理论意义。

实际应用

在实际应用中，RuSciBenchZhoClassification数据集支撑了智能学术信息系统的开发。基于该数据集训练的模型可集成至数字图书馆、科研协作平台及学术推荐引擎，实现文献的自动化分类与主题标注。这不仅减轻了人工编目的负担，还增强了科学文献的发现性与关联性，为科研人员提供精准的文献筛选和趋势分析服务，进而优化科研决策与知识管理流程。

数据集最近研究