HLE_SFT_GPQA_Diamond

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/neko-llm/HLE_SFT_GPQA_Diamond

下载链接

链接失效反馈

官方服务：

资源简介：

HLE SFT GPQA Diamond数据集是基于GPQA Diamond数据集，并添加了Chain of Thought (CoT) 推论生成的监督微调(SFT)用数据集。它为专业科学领域（物理学、化学、生物学）的高级问题提供了包含逐步推论过程的完整回答。

创建时间：

2025-08-03

原始信息汇总

HLE SFT GPQA Diamond 数据集概述

数据集概要

基于GPQA (Graduate-level Google-proof Q&A) Diamond数据集生成
添加了Chain of Thought (CoT) 推论的Supervised Fine-Tuning (SFT) 数据集
专注于专业科学领域（物理学、化学、生物学）的高级问题解答

数据集统计

总问题数：198问
成功生成数：61问
成功率：30.8%

文件格式

CSV格式 (gpqa_diamond_cot_dataset.csv)
- 通用表格式数据
- 兼容Excel和各类电子表格软件
- 支持Pandas直接读取
Parquet格式 (gpqa_diamond_cot_dataset.parquet)
- 高效列式存储格式
- 适合大规模数据快速读取
- Apache Arrow生态系统推荐格式
JSONL格式 (gpqa_diamond_cot_dataset.jsonl)
- JSON Lines格式（每行一条记录）
- 适合流式处理
- 主流机器学习框架广泛支持

数据结构

字段名	类型	描述
`id`	int	问题唯一标识符
`question`	str	原始问题文本
`output`	str	包含CoT推理过程的完整回答（`<think>...</think>`格式）
`answer`	str	最终正确答案
`generated_answer`	str	生成答案
`judgment_status`	str	判断状态

数据生成方法

源数据：GPQA Diamond Dataset的train split
CoT生成：使用DeepSeek-R1-0528:free模型生成推理过程
格式处理：结构化为<think>推理过程</think>最终回答格式
质量控制：记录API调用成功/失败状态

生成模型信息

模型：deepseek/deepseek-r1-0528:free
API：OpenRouter API
生成方式：JSON结构化提示推理生成
输出格式：{"reasoning": "推理过程", "answer": "回答"}

使用许可

遵循原始GPQA数据集许可协议，推荐学术研究用途

引用规范

bibtex @dataset{hle_sft_gpqa_diamond, title={HLE SFT GPQA Diamond Dataset with Chain of Thought}, author={neko-llm}, year={2024}, url={https://huggingface.co/datasets/neko-llm/HLE_SFT_GPQA_Diamond} }

原始数据集引用： bibtex @article{rein2023gpqa, title={GPQA: A Graduate-Level Google-Proof Q&A Benchmark}, author={Rein, David and Hou, Betty Li and Stickland, Asa Cooper and Petty, Jackson and Pang, Richard Yuanzhe and Dirani, Julien and Michael, Julian and Bowman, Samuel R}, journal={arXiv preprint arXiv:2311.12022}, year={2023} }

搜集汇总

数据集介绍

构建方式

在科学问答领域，高质量的数据集对于模型训练至关重要。HLE_SFT_GPQA_Diamond数据集基于GPQA Diamond数据集构建，通过DeepSeek-R1-0528模型生成链式推理过程，采用结构化JSON格式进行标注。生成过程严格遵循科学严谨性，每个问题都包含详细的推理步骤和最终答案，并以<think>标签明确区分推理过程和结论。数据集经过严格的API调用质量监控，确保生成内容的可靠性。

使用方法

该数据集可通过多种方式灵活使用。使用Python的Pandas库可直接读取三种格式的数据，其中Parquet格式因其高效性被推荐为首选。对于Hugging Face生态用户，可通过datasets库直接加载数据集。此外，数据集还支持PyTorch的DataLoader，便于深度学习模型的训练。数据集中清晰的推理标注特别适合监督微调任务，能有效提升模型在复杂科学问题上的推理能力。

背景与挑战

背景概述

HLE_SFT_GPQA_Diamond数据集是基于GPQA（Graduate-level Google-proof Q&A）Diamond数据集构建的监督微调（SFT）专用数据集，由neko-llm研究团队于2024年发布。该数据集聚焦于物理学、化学和生物学等专业科学领域的高阶问题求解，通过引入思维链（Chain of Thought, CoT）推理机制，为复杂问题提供逐步解析过程。其核心价值在于推动大语言模型在专业科学问答中的推理能力，弥补了传统问答数据集缺乏显式逻辑推演的不足。作为GPQA基准的扩展，该数据集继承了原数据集对抗搜索引擎作弊的设计理念，为评估模型在高级认知任务中的真实性提供了新的研究范式。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，专业科学问题涉及多学科交叉知识，要求模型具备精确的分子结构解析能力和化学反应机理理解，如示例中有机合成反应的碳原子计数需跨越三个转化步骤；在构建过程中，CoT标注的成功率仅30.8%，反映出深度推理步骤生成的脆弱性，部分失败案例源于模型对专业术语的误读或逻辑断裂。数据格式虽提供CSV、Parquet和JSONL三种版本，但思维链特有的〈think〉标签结构化表示与下游任务适配仍需定制化解析方案。此外，基于DeepSeek-R1模型的推理生成存在领域知识覆盖偏差，化学类问题占比过高可能导致学科分布不均衡。

常用场景

经典使用场景

在自然语言处理领域，HLE_SFT_GPQA_Diamond数据集为研究者提供了一个独特的资源，专门用于训练和评估模型在复杂科学问题上的推理能力。该数据集通过引入Chain of Thought (CoT) 推理性回答，使得模型能够逐步解析问题，从而在物理学、化学和生物学等专业领域展现出更强的解释性。这种结构化的推理过程不仅提升了模型回答的准确性，还为理解模型决策过程提供了透明性。

解决学术问题

该数据集有效地解决了高级问答系统中缺乏透明推理过程的学术难题。通过提供详细的推理解析步骤，研究者能够深入分析模型在处理复杂科学问题时的认知路径。这种细粒度的监督数据为解释性人工智能的发展提供了重要支持，特别是在需要严格逻辑推导的专业领域，填补了现有数据集中推理过程缺失的空白。

实际应用

在实际应用中，该数据集特别适合用于开发专业领域的智能辅导系统。教育科技公司可以基于这些数据构建能够详细解释科学问题解决过程的AI助手，帮助学生理解复杂的科学概念。同时，在科研辅助领域，这类具有推理能力的模型可以协助研究人员快速获取专业问题的分步解答，提高科研效率。

数据集最近研究