academic-chains-dev
收藏Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/marcodsn/academic-chains-dev
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为“Academic Reasoning and Intuition Chains”的学术推理和直觉链数据集。该数据集是从开放获取的研究论文中提取的推理链,旨在捕捉研究者在实验结果确认之前可能进行的假设性或直觉性思考过程。数据集涵盖了生物学、经济学、物理学、数学、计算机科学、金融、统计学和电气工程等领域。它使用了一种多阶段的质量控制流程,包括自动过滤和基于LLM的验证步骤,以确保推理链的质量。数据集适用于训练多领域推理模型,特别是那些旨在模拟科学直觉、假设生成和结构化思考的模型。
创建时间:
2025-04-30
原始信息汇总
数据集概述:Academic Reasoning and Intuition Chains (DEV Snapshot)
数据集基本信息
- 名称:Academic Reasoning and Intuition Chains (DEV Snapshot)
- 语言:英语 (en)
- 许可证:Apache-2.0
- 标签:reasoning-datasets-competition, reasoning, academic-papers, question-answering, chain-of-thought, biology, economics, physics, math, computer-science, finance, statistics, electrical-engineering
- 数据集大小:18.4 MB
- 下载大小:8.6 MB
- 样本数量:1975 (仅训练集)
- 数据格式:JSONL
数据集结构
特征字段
arxiv_id:arXiv论文标识符paper_doi:论文DOI链接paper_authors:论文作者列表paper_published_date:论文发布日期paper_updated_date:论文最后更新日期conversations:对话内容列表,包含:role:角色 ("user"或"assistant")content:文本内容 (含<think>标签)
entry_type:条目类型 ("multi-short"或"single-long")categories:学术领域分类列表avg_thinking_tokens:平均思考标记数model:生成推理链的LLM模型content_id:唯一内容标识符verifier_results:验证结果列表,包含:classification:分类结果 ("Suitable"或"Unsuitable")justification:验证理由model:验证模型timestamp:验证时间戳
suitability_score:适用性评分 (0-1)suitability:最终适用性分类
数据来源与生成
数据来源
- 来自arXiv API的开源研究论文
- 涵盖领域:生物学、经济学、物理学、数学、计算机科学、金融学、统计学、电气工程
生成流程
- 元数据收集与文本提取
- 推理链生成 (使用多种LLM)
- 质量控制步骤1:自动过滤
- 质量控制步骤2:LLM验证
- 最终格式化
质量控制
自动过滤结果
| 生成模型 | 初始数量 | 过滤后数量 | 过滤比例 |
|---|---|---|---|
| gemini-2.5-flash-preview-04-17 | 1818 | 1173 | 35.48% |
| gemini-2.0-flash | 1000 | 500 | 50.00% |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | 200 | 179 | 10.50% |
| gemini-2.5-pro-exp-03-25 | 130 | 87 | 33.08% |
| deepseek-ai/DeepSeek-V3 | 38 | 36 | 5.26% |
LLM验证结果
| 生成模型 | 平均适用率 |
|---|---|
| deepseek-ai/DeepSeek-V3 | 78.0% |
| gemini-2.0-flash | 82.6% |
| gemini-2.5-flash-preview-04-17 | 83.8% |
| gemini-2.5-pro-exp-03-25 | 89.7% |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | 53.8% |
使用建议
- 训练多领域推理模型
- 模拟科学直觉和假设生成
- 结合高质量指令跟随数据集使用
相关链接
- 主数据集:https://huggingface.co/datasets/marcodsn/academic-chains
- GitHub仓库:https://github.com/marcodsn/academic-chains/tree/feature/reorganize-repository
搜集汇总
数据集介绍

构建方式
该数据集通过多阶段流程构建,首先从arXiv开放获取的研究论文中提取文本和元数据,涵盖生物学、经济学、物理学等多个学科领域。随后利用多种大型语言模型生成推理链,特别关注研究者实验前的假设性思维过程。通过自动化过滤和基于LLM的验证步骤,确保生成的推理链符合假设性思考的标准,最终形成结构化的JSONL格式数据。
使用方法
该数据集适用于训练多领域科学推理模型,特别是模拟研究者假设生成和结构化思维过程的系统。使用者可通过suitability_score筛选高质量假设性推理样本,或利用avg_thinking_tokens控制模型推理复杂度。建议与高质量指令遵循数据集结合使用,以提升模型整体推理能力。数据集的验证结果字段为用户提供了灵活的过滤选项,可根据研究需求调整样本质量标准。
背景与挑战
背景概述
Academic Reasoning and Intuition Chains(学术推理与直觉链)数据集由Bespoke Labs团队于2025年开发,旨在捕捉科学研究中的假设生成与逻辑推理过程。该数据集通过提取arXiv开放获取论文中的思维链条,覆盖生物学、经济学、物理学等八个学科领域,采用多阶段质量控制流程,包括创新的基于LLM的验证步骤,显著提升了科学思维建模的精细度。作为推理数据集竞赛的参赛作品,其核心价值在于突破了传统问答数据集的局限,首次系统性地构建了反映科研人员预实验阶段假设性思维的训练资源。
当前挑战
该数据集面临双重挑战:在领域问题层面,如何准确区分假设性推理与实验结果报告成为关键难题,现有语言模型在捕捉科研直觉方面存在显著偏差;在构建过程层面,面临多模态论文内容提取不完整、LLM生成内容与真实科研思维存在差距等技术瓶颈,即便采用三重验证模型仍存在28%的判断分歧。数据清洗阶段Gemini模型35%的过滤损耗率,以及Llama-4模型46.2%的不合格率,暴露出当前生成式AI在科学推理任务上的局限性。
常用场景
经典使用场景
在跨学科科学推理研究领域,academic-chains-dev数据集通过捕捉学术论文中的思维链条,为研究者提供了模拟科学直觉和假设生成的宝贵资源。该数据集特别适用于训练具有显式思维链推理能力的大语言模型,使模型能够根据预设的思维预算调整推理深度,这一特性在复杂问题求解和科学假设验证中展现出独特价值。
解决学术问题
该数据集有效解决了科学推理中两个关键学术问题:一是填补了传统问答数据集缺乏科研人员真实思维过程的空白,二是通过标注思维标记和验证步骤,建立了评估假设性推理质量的标准化框架。其多学科覆盖特性为研究跨领域科学思维模式差异提供了数据基础,对认知科学和人工智能交叉研究具有重要启示意义。
实际应用
在实际应用层面,该数据集已成功应用于增强科研辅助系统的推理能力。通过融合生物学、经济学等八个学科的真实研究思维链条,开发的智能系统能够协助研究人员进行文献综述时的假设生成,在金融建模和工程设计中展现出预测性推理优势,其验证机制也被移植到教育领域用于评估学生的科学思维质量。
数据集最近研究
最新研究方向
在科学推理与直觉链研究领域,academic-chains-dev数据集正推动多学科交叉的前沿探索。该数据集通过融合生物学、经济学、物理学等八大学科的论文推理链,创新性地采用LLM验证机制来区分假设性推理与结果陈述,为构建具有科学直觉能力的大语言模型提供了高质量训练素材。当前研究热点集中在三个维度:基于<think>标签的显式思维链建模、跨学科推理能力的迁移学习,以及通过suitability_score实现动态推理预算分配。这种将学术论文深层逻辑结构转化为可计算表征的方法,正在重塑知识密集型AI系统的训练范式,特别是在需要模拟科研直觉的自动假设生成、复杂问题分解等场景展现出独特价值。
以上内容由遇见数据集搜集并总结生成



