five

Leonnel1220/CS-DeepSearchQA

收藏
Hugging Face2026-03-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Leonnel1220/CS-DeepSearchQA
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - zh - en tags: - agent size_categories: - n<1K --- # CS-DeepSearch (CS-DRAFT) 数据集 ## 数据集描述 **CS-DeepSearch** 是一个专门为训练和评估“专家级计算机科学深层研究智能体”而设计的 QA 数据集。 ### 数据集简介 该数据集借鉴了 **MedResearcher-R1** 的 **KISA**(知识启发式轨迹合成)框架。针对计算机科学领域,从 10,176 篇 Arxiv 摘要中挖掘出极长尾的“稀有实体”,并构建了需要复杂多跳推理链的 QA 对。 ### 数据集支持的任务 - **Train**: 包含 261 条深度研究 QA,可用于 SFT / RL 后训练。 * **Test**:包含 50 条深度研究 QA,用于评估智能体的端到端研究成功率。 ## 数据集的格式和结构 **数据样本范例:** | quesiton | answer | seed_entity | | ------------------------------------------------------------ | ----------------------- | ----------------------------- | | 在深度神经网络领域,有一种常见属性被认为会导致模型在训练数据上表现过于复杂。为了应对由此属性引发的问题,研究者提出了一种特定的网络训练技术。该技术不仅能有效改善模型对此问题的抵抗力,还定义性地提供了一种抵抗非期望记忆的能力。请问这种技术是什么? | symmetric loss function | concentratability coefficient |
提供机构:
Leonnel1220
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作