Leonnel1220/CS-DeepSearchQA
收藏Hugging Face2026-03-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Leonnel1220/CS-DeepSearchQA
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- zh
- en
tags:
- agent
size_categories:
- n<1K
---
# CS-DeepSearch (CS-DRAFT) 数据集
## 数据集描述
**CS-DeepSearch** 是一个专门为训练和评估“专家级计算机科学深层研究智能体”而设计的 QA 数据集。
### 数据集简介
该数据集借鉴了 **MedResearcher-R1** 的 **KISA**(知识启发式轨迹合成)框架。针对计算机科学领域,从 10,176 篇 Arxiv 摘要中挖掘出极长尾的“稀有实体”,并构建了需要复杂多跳推理链的 QA 对。
### 数据集支持的任务
- **Train**: 包含 261 条深度研究 QA,可用于 SFT / RL 后训练。
* **Test**:包含 50 条深度研究 QA,用于评估智能体的端到端研究成功率。
## 数据集的格式和结构
**数据样本范例:**
| quesiton | answer | seed_entity |
| ------------------------------------------------------------ | ----------------------- | ----------------------------- |
| 在深度神经网络领域,有一种常见属性被认为会导致模型在训练数据上表现过于复杂。为了应对由此属性引发的问题,研究者提出了一种特定的网络训练技术。该技术不仅能有效改善模型对此问题的抵抗力,还定义性地提供了一种抵抗非期望记忆的能力。请问这种技术是什么? | symmetric loss function | concentratability coefficient |
提供机构:
Leonnel1220



