CS-54k

Name: CS-54k
Creator: 新加坡国立大学
Published: 2025-10-23 15:07:35
License: 暂无描述

arXiv2025-10-23 更新2025-10-25 收录

下载链接：

https://github.com/wph6/ResearchGPT

下载链接

链接失效反馈

官方服务：

资源简介：

CS-54k是一个高质量的计算机科学领域问答对语料库，由14,474篇CC许可的论文构建而成。该语料库通过一个可扩展的、基于论文的流水线构建，结合了检索增强生成（RAG）和多阶段质量控制，以确保所有问答对都基于真实的科学背景。从统一的语料库中，我们通过仔细采样和筛选，衍生出两个互补的子集：CS-4k，用于严格的评估；CS-50k，用于大规模训练。CS-4k允许对模型在整个研究流程中辅助科学研究的全部能力进行全面和真实的评估。CS-50k解决了领域相关数据稀缺的问题，为系统性地微调真实的科学研究任务提供了广泛而可靠的监督。该数据集旨在促进AI系统成为计算机科学研究中的可靠合作伙伴。

CS-54k is a high-quality question-answering pair corpus in the field of computer science, constructed from 14,474 CC-licensed academic papers. This corpus is built via a scalable, paper-based pipeline that combines retrieval-augmented generation (RAG) and multi-stage quality control, ensuring that all question-answering pairs are grounded in authentic scientific contexts. From this unified corpus, we derived two complementary subsets via careful sampling and filtering: CS-4k for rigorous evaluation, and CS-50k for large-scale training. CS-4k enables comprehensive and authentic evaluation of a model's full capabilities to assist with scientific research across the entire research workflow. CS-50k addresses the issue of domain-specific data scarcity, providing extensive and reliable supervision for systematic fine-tuning on real-world scientific research tasks. This dataset is designed to foster AI systems to act as reliable collaborators in computer science research.

提供机构：

新加坡国立大学

创建时间：

2025-10-23

原始信息汇总

ResearchGPT 数据集概述

数据集基本信息

名称: ResearchGPT (CS-54k)
类型: 计算机科学问答对语料库
规模: 54,000个高质量问答对
来源: 14,000篇CC许可论文
许可证: MIT License

数据集构成

主要子集

CS-54k: 完整数据集，包含54,000个问答对
CS-4k: 评估基准子集，用于端到端研究助手能力评估
CS-50k: 训练子集，用于领域对齐模型开发

构建方法

技术流程

采用可扩展的论文基础流程
结合检索增强生成(RAG)技术
实施多阶段质量控制
确保事实基础和可复现性

主题分类

数据集将问答对组织为八个主题类别，反映科学论文中的不同推理功能：

研究领域
先前方法
现有挑战
研究动机
发现/假设
研究方法
实验设置
实验结果

训练与应用

训练方法

使用CS-50k子集微调Qwen2.5-7B-Instruct模型
采用Group Relative Policy Optimization (GRPO)算法
基于VERL框架进行高效强化学习

实验结果

7B规模开源模型在CS-50k上微调后，性能超越大型专有系统
表明高质量领域对齐训练比预训练规模或通用基准性能更重要

评估体系

评估基准

使用CS-4k子集进行评估
采用LLM-as-a-judge方法
使用0-10分详细评分标准
衡量与参考答案的语义和技术对齐度

评估指标

总体得分: 所有CS-4k问题的平均得分(缩放到0-100)
分类性能: 八个主题类别的详细表现分析

相关资源

论文: https://arxiv.org/abs/2510.20279
数据集: https://huggingface.co/datasets/wph6/CS-54k
代码框架: VERL、OpenCompass、LLaMA-Factory

搜集汇总

数据集介绍

构建方式

在计算机科学研究领域，构建高质量数据集对评估人工智能辅助科研能力至关重要。CS-54k数据集采用基于检索增强生成的可扩展构建流程，从14,474篇CC授权论文中提取内容。通过层次化分块和语义嵌入技术，将论文内容划分为八个科研工作流维度，利用多阶段质量控制系统确保问答对的事实准确性。该流程首先通过问题扩展生成多样化问题草案，再结合检索增强生成技术将问题与原始论文内容进行锚定，最终经过合理性评估、模型性能筛选和难度评分三重质量控制，从60万初步问答对中精选出5.4万高质量样本。

使用方法

在科研辅助模型开发实践中，CS-54k数据集提供了系统的应用路径。数据集被划分为CS-50k训练集和CS-4k测试集两个互补子集，前者用于模型监督微调和强化学习训练，后者作为严谨的评估基准。研究人员可采用监督微调方法在CS-50k上训练模型，使其输出与高质量参考答案对齐；进一步应用广义奖励策略优化技术，通过单奖励模型或双奖励模型配置进行强化学习优化，有效缓解奖励黑客问题并提升模型推理能力。评估时采用大语言模型作为评判者的范式，在八个科研维度上对模型预测进行0-10分制评分，全面衡量模型在端到端科研工作流中的辅助能力。

背景与挑战

背景概述

在人工智能与计算机科学深度融合的背景下，CS-54k数据集于2025年由新加坡国立大学等机构联合提出，旨在构建面向端到端科研流程的AI协作系统。该数据集基于14,474篇顶级会议的开放获取论文，通过检索增强生成与多阶段质量控制技术，构建了涵盖研究领域、方法创新、实验设计等八个维度的科学问答对。其核心价值在于首次系统化评估大型语言模型在完整科研工作流中的辅助能力，推动了领域专用训练范式的革新。

当前挑战

该数据集致力于解决计算机科学领域端到端科研流程自动化的核心难题，其挑战体现在模型需同时具备高层次概念推理与细粒度技术还原能力。构建过程中面临三重挑战：一是确保问答对与原始论文的严格事实对齐，需通过多层过滤机制消除幻觉；二是平衡问题难度谱系，避免训练数据偏向简单记忆或过度复杂；三是维持多类别问题的分布均衡性，需设计动态采样策略应对技术细节类问题的天然稀疏性。

常用场景

经典使用场景

在计算机科学研究领域，CS-54k数据集主要应用于评估和训练大型语言模型在端到端科研工作流程中的综合能力。该数据集通过覆盖研究领域、先前方法、现有挑战、研究动机、发现假设、实验方法、实验设置和实验结果八个核心维度，构建了完整的科研任务评估体系。研究人员利用其精心设计的问答对，能够系统性地测试模型从问题提出到实验设计的全流程理解能力，为构建真正意义上的科研助手提供了标准化测试环境。

解决学术问题

该数据集有效解决了传统基准测试在科学评估中的碎片化问题，弥补了现有基准仅关注孤立研究阶段的局限性。通过构建覆盖完整科研生命周期的评估体系，CS-54k使得研究者能够准确衡量模型在复杂科研任务中的综合表现。其实证研究表明，基于该数据集训练的7B规模模型在多项指标上超越了更大规模的专有系统，揭示了领域对齐训练相较于预训练规模对科研助手能力提升的关键作用，为高效科研AI的开发提供了重要理论支撑。

实际应用

在实际应用层面，CS-54k为开发智能科研协作系统提供了核心训练资源。基于该数据集训练的模型已展现出在文献理解、方法设计、实验分析等科研环节的实用价值。教育机构可将其用于培养研究生的科研素养，企业研发团队则可借助其构建自动化文献综述工具。特别值得注意的是，经过监督微调和强化学习优化的模型在技术细节还原和逻辑推理方面表现突出，为构建可靠的科研助手奠定了实践基础。

数据集最近研究