academic-chains-dev

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/marcodsn/academic-chains-dev

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为“Academic Reasoning and Intuition Chains”的学术推理和直觉链数据集。该数据集是从开放获取的研究论文中提取的推理链，旨在捕捉研究者在实验结果确认之前可能进行的假设性或直觉性思考过程。数据集涵盖了生物学、经济学、物理学、数学、计算机科学、金融、统计学和电气工程等领域。它使用了一种多阶段的质量控制流程，包括自动过滤和基于LLM的验证步骤，以确保推理链的质量。数据集适用于训练多领域推理模型，特别是那些旨在模拟科学直觉、假设生成和结构化思考的模型。

创建时间：

2025-04-30

原始信息汇总

数据集概述：Academic Reasoning and Intuition Chains (DEV Snapshot)

数据集基本信息

名称：Academic Reasoning and Intuition Chains (DEV Snapshot)
语言：英语 (en)
许可证：Apache-2.0
标签：reasoning-datasets-competition, reasoning, academic-papers, question-answering, chain-of-thought, biology, economics, physics, math, computer-science, finance, statistics, electrical-engineering
数据集大小：18.4 MB
下载大小：8.6 MB
样本数量：1975 (仅训练集)
数据格式：JSONL

数据集结构

特征字段

arxiv_id：arXiv论文标识符
paper_doi：论文DOI链接
paper_authors：论文作者列表
paper_published_date：论文发布日期
paper_updated_date：论文最后更新日期
conversations：对话内容列表，包含：
- role：角色 ("user"或"assistant")
- content：文本内容 (含<think>标签)
entry_type：条目类型 ("multi-short"或"single-long")
categories：学术领域分类列表
avg_thinking_tokens：平均思考标记数
model：生成推理链的LLM模型
content_id：唯一内容标识符
verifier_results：验证结果列表，包含：
- classification：分类结果 ("Suitable"或"Unsuitable")
- justification：验证理由
- model：验证模型
- timestamp：验证时间戳
suitability_score：适用性评分 (0-1)
suitability：最终适用性分类

数据来源与生成

数据来源

来自arXiv API的开源研究论文
涵盖领域：生物学、经济学、物理学、数学、计算机科学、金融学、统计学、电气工程

生成流程

元数据收集与文本提取
推理链生成 (使用多种LLM)
质量控制步骤1：自动过滤
质量控制步骤2：LLM验证
最终格式化

质量控制

自动过滤结果

生成模型	初始数量	过滤后数量	过滤比例
gemini-2.5-flash-preview-04-17	1818	1173	35.48%
gemini-2.0-flash	1000	500	50.00%
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	200	179	10.50%
gemini-2.5-pro-exp-03-25	130	87	33.08%
deepseek-ai/DeepSeek-V3	38	36	5.26%

LLM验证结果

生成模型	平均适用率
deepseek-ai/DeepSeek-V3	78.0%
gemini-2.0-flash	82.6%
gemini-2.5-flash-preview-04-17	83.8%
gemini-2.5-pro-exp-03-25	89.7%
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	53.8%

使用建议

训练多领域推理模型
模拟科学直觉和假设生成
结合高质量指令跟随数据集使用

相关链接

主数据集：https://huggingface.co/datasets/marcodsn/academic-chains
GitHub仓库：https://github.com/marcodsn/academic-chains/tree/feature/reorganize-repository

搜集汇总

数据集介绍

构建方式

该数据集通过多阶段流程构建，首先从arXiv开放获取的研究论文中提取文本和元数据，涵盖生物学、经济学、物理学等多个学科领域。随后利用多种大型语言模型生成推理链，特别关注研究者实验前的假设性思维过程。通过自动化过滤和基于LLM的验证步骤，确保生成的推理链符合假设性思考的标准，最终形成结构化的JSONL格式数据。

使用方法

该数据集适用于训练多领域科学推理模型，特别是模拟研究者假设生成和结构化思维过程的系统。使用者可通过suitability_score筛选高质量假设性推理样本，或利用avg_thinking_tokens控制模型推理复杂度。建议与高质量指令遵循数据集结合使用，以提升模型整体推理能力。数据集的验证结果字段为用户提供了灵活的过滤选项，可根据研究需求调整样本质量标准。

背景与挑战

背景概述

Academic Reasoning and Intuition Chains（学术推理与直觉链）数据集由Bespoke Labs团队于2025年开发，旨在捕捉科学研究中的假设生成与逻辑推理过程。该数据集通过提取arXiv开放获取论文中的思维链条，覆盖生物学、经济学、物理学等八个学科领域，采用多阶段质量控制流程，包括创新的基于LLM的验证步骤，显著提升了科学思维建模的精细度。作为推理数据集竞赛的参赛作品，其核心价值在于突破了传统问答数据集的局限，首次系统性地构建了反映科研人员预实验阶段假设性思维的训练资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，如何准确区分假设性推理与实验结果报告成为关键难题，现有语言模型在捕捉科研直觉方面存在显著偏差；在构建过程层面，面临多模态论文内容提取不完整、LLM生成内容与真实科研思维存在差距等技术瓶颈，即便采用三重验证模型仍存在28%的判断分歧。数据清洗阶段Gemini模型35%的过滤损耗率，以及Llama-4模型46.2%的不合格率，暴露出当前生成式AI在科学推理任务上的局限性。

常用场景

经典使用场景

在跨学科科学推理研究领域，academic-chains-dev数据集通过捕捉学术论文中的思维链条，为研究者提供了模拟科学直觉和假设生成的宝贵资源。该数据集特别适用于训练具有显式思维链推理能力的大语言模型，使模型能够根据预设的思维预算调整推理深度，这一特性在复杂问题求解和科学假设验证中展现出独特价值。

解决学术问题

该数据集有效解决了科学推理中两个关键学术问题：一是填补了传统问答数据集缺乏科研人员真实思维过程的空白，二是通过标注思维标记和验证步骤，建立了评估假设性推理质量的标准化框架。其多学科覆盖特性为研究跨领域科学思维模式差异提供了数据基础，对认知科学和人工智能交叉研究具有重要启示意义。

实际应用

在实际应用层面，该数据集已成功应用于增强科研辅助系统的推理能力。通过融合生物学、经济学等八个学科的真实研究思维链条，开发的智能系统能够协助研究人员进行文献综述时的假设生成，在金融建模和工程设计中展现出预测性推理优势，其验证机制也被移植到教育领域用于评估学生的科学思维质量。

数据集最近研究