five

academic-chains

收藏
Hugging Face2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/marcodsn/academic-chains
下载链接
链接失效反馈
官方服务:
资源简介:
Academic Reasoning and Intuition Chains数据集是一个包含从开放获取的研究论文中提取的推理(和直觉)链的数据集,主要关注定量生物学(q-bio)和一般经济学(econ.GN)类别。该数据集旨在创建基于学术研究的推理链,捕捉作者呈现的逻辑结构、论证或证明。
创建时间:
2025-04-20
原始信息汇总

数据集概述:Academic Reasoning and Intuition Chains

数据集描述

  • 目的:从开放获取的研究论文中提取推理(和直觉)链,主要关注q-bio和econ.GN类别,旨在创建学术基础的推理链,捕捉作者提出的潜在逻辑结构、论证或理由。
  • 领域:定量生物学(q-bio)和普通经济学(econ.GN)。
  • 语言:英语。
  • 许可证:Apache-2.0。
  • 数据集大小:16,075,238.815238096字节。
  • 下载大小:7,757,626字节。

数据集结构

特征

  • arxiv_id:源论文的标识符。
  • paper_doi:原始论文的DOI或URL链接。
  • paper_authors:论文作者列表。
  • paper_published_date:论文发布日期。
  • paper_updated_date:论文最后更新日期。
  • conversations:包含推理链的对话格式列表,每个条目包括:
    • user:关于论文内容的问题或提示。
    • assistant:提供推理或解释的响应。
  • entry_type:指示条目包含多个短推理链还是单个长链。
  • categories:论文所属的学术类别或子领域列表。
  • avg_thinking_tokens:思考部分的平均令牌数,指示推理复杂性。
  • model:用于生成推理链的LLM。

数据拆分

  • train:处理后的数据,包含478个示例。
  • zraw:原始生成数据,包含1050个示例。
  • zraw_curator:使用Bespoke Curator生成的数据,包含496个示例。

数据集创建

数据来源

  • 从arXiv获取的开放获取研究论文,主要来自定量生物学和普通经济学领域。

数据处理流程

  1. 元数据收集:使用arxiv Python API包装器获取论文元数据。
  2. PDF文本提取:使用docling库从PDF中提取文本。
  3. 推理链提取:使用LLM(如gemini-2.5-flash-preview-04-17gemini-2.5-pro-exp-03-25deepseek-ai/DeepSeek-V3)提取推理链。
  4. 格式化和清理:过滤无推理链的条目,并格式化为标准化的JSON结构。

示例用途

  • 用于训练多领域推理模型,指定近似的思考令牌预算。

初步评估

  • 使用unsloth/Llama-3.2-3B-Instruct进行微调,结果显示在MMLU-Pro经济学测试中性能提升7.2%。

扩展计划

  1. 扩展领域覆盖:包括计算机科学、物理学等更多科学领域。
  2. 增加数据量:从当前概念验证规模扩展到更大规模。
  3. 增强质量验证:实现模型在环验证系统。
  4. 多模态推理:扩展到包含图表、图表和数学公式的论文。

限制与偏差

  • 来源偏差:数据集反映了所选开放获取论文的主题、写作风格和潜在偏差。
  • 提取保真度:LLM提取可能引入错误(如幻觉、误解)。
  • 范围有限:当前数据集包含少于1000个示例,可能未覆盖所选领域的全部推理模式。

许可信息

  • 数据集采用Apache License 2.0许可。

引用信息

bibtex @misc{marcodsn_2025_academicchains, title = {Academic Reasoning and Intuition Chains Dataset}, author = {Marco De Santis}, month = {April}, year = {2025}, url = {https://huggingface.co/datasets/marcodsn/academic-chains} }

搜集汇总
数据集介绍
main_image_url
构建方式
在学术推理与直觉链数据集的构建过程中,研究团队采用了严谨的多阶段流程。首先通过arXiv的Python API接口,从定量生物学(q-bio)和通用经济学(econ.GN)领域筛选出相关论文。随后运用docling库从PDF源文件中提取结构化文本,并采用多模型协同策略(包括Gemini和DeepSeek系列模型)进行推理链的智能提取。特别值得注意的是,模型被特别要求模拟研究者开展实验前的思维状态,从而捕捉科研过程中特有的假设构建和直觉推理过程。最终数据经过严格清洗和标准化处理,形成包含长短两种推理链的规范化JSON格式。
特点
该数据集最显著的特征在于其独特的学术推理深度和领域覆盖广度。数据集不仅包含传统的逻辑推理链条,更创新性地融入了科研直觉的建模,真实还原了学术研究中的探索性思维过程。每条数据记录均完整保留了原始论文的元数据信息,包括arXiv标识符、作者列表及发表时间等关键学术属性。特别设计的avg_thinking_tokens字段为模型训练提供了精确的推理复杂度量化指标,而多模型生成来源的标注则为研究模型差异性提供了便利。数据集目前涵盖生物与经济两大核心学科,为跨领域推理研究提供了理想素材。
使用方法
该数据集主要适用于训练具有预算意识的领域推理模型。使用者可依据avg_thinking_tokens字段实现推理深度的精确控制,模拟Gemini等商业API的思考预算机制。建议采用渐进式训练策略:先以单领域短链数据进行基础训练,再逐步引入跨领域长链数据提升模型泛化能力。配套提供的系统提示模板(包含<think>标签机制)可直接用于模型微调,而原始论文DOI信息则为后续知识验证提供了可靠溯源途径。值得注意的是,该数据集与常规指令遵循数据集的混合使用可能产生协同效应,但需注意控制混合比例以避免领域偏移。
背景与挑战
背景概述
Academic Reasoning and Intuition Chains数据集由Marco De Santis及其团队于2025年创建,作为Reasoning Datasets Competition的概念验证项目。该数据集旨在从开放获取的研究论文中提取推理链和直觉链,重点关注定量生物学(q-bio)和普通经济学(econ.GN)领域。通过捕捉作者提出的逻辑结构、论证过程以及研究直觉,该数据集为训练多领域推理模型提供了学术基础。其创新性在于不仅总结最终结果,还还原了研究者的探索性思维过程,对推动自然语言处理中的推理能力研究具有重要意义。
当前挑战
该数据集面临的主要挑战包括领域问题的复杂性和构建过程的技术难点。在领域问题方面,如何准确捕捉学术论文中的深层逻辑和直觉,避免过度简化或曲解作者原意是一大挑战。构建过程中的挑战则体现在多个环节:从PDF提取文本时可能丢失格式信息;使用LLM生成推理链时易出现幻觉或误解;跨学科术语和表达差异增加了数据清洗难度。此外,源数据的开放获取特性可能导致某些领域或地区的研究代表性不足,影响数据集的全面性。
常用场景
经典使用场景
在学术推理与直觉链数据集中,经典使用场景主要体现在训练多领域推理模型上。该数据集通过从定量生物学和经济学领域的开放获取研究论文中提取推理链,为模型提供了丰富的学术逻辑结构。研究人员可以利用这些推理链来训练模型,使其能够模拟科学家的思考过程,从而在复杂的学术问题上展现出更接近人类的推理能力。这种使用方式特别适用于需要模型具备深度理解和逻辑推理能力的场景,如学术问答系统和科学文献分析工具。
衍生相关工作
围绕该数据集已经衍生出多项经典工作,包括对Llama-3.2-3B-Instruct等模型的微调研究。这些工作证明了使用学术推理链可以有效提升模型在专业领域的表现。此外,该数据集还启发了多模态推理研究,如结合图表和数学公式的推理链提取。相关团队正在探索将其扩展到计算机科学、物理学等更多学科领域,为跨学科研究提供新的数据支持。
数据集最近研究
最新研究方向
在学术推理与直觉链领域,academic-chains数据集正推动多模态推理与跨学科知识融合的前沿探索。该数据集通过提取定量生物学和经济学论文中的逻辑链与直觉假设,为语言模型提供了模拟科研思维过程的训练范式。当前研究热点集中在三个方面:基于思维预算的推理控制技术,通过avg_thinking_tokens参数实现动态计算资源分配;多轮对话式推理框架,利用conversations字段构建科研问题求解的交互式训练环境;以及跨学科知识迁移,借助categories标签探索生物学原理对经济模型构建的启发作用。这一研究方向与2025年推理数据集竞赛的核心目标相呼应,为开发具备科学直觉能力的下一代AI系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作