academic-chains

github2025-04-24 更新2025-04-25 收录

下载链接：

https://github.com/marcodsn/academic-chains

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从开放获取的研究论文（主要来自q-bio和econ.GN arXiv类别）中提取的推理和直觉链。它旨在捕捉研究人员提出的潜在逻辑结构、论证和理由，反映研究过程中固有的探索性思维过程。

This dataset contains reasoning and intuition chains extracted from open-access research papers, mainly from the q-bio and econ.GN arXiv categories. It is designed to capture the underlying logical structures, arguments and justifications put forward by researchers, and reflect the exploratory thought processes inherent in the research workflow.

创建时间：

2025-04-18

原始信息汇总

Academic Reasoning and Intuition Chains 数据集概述

数据集基本信息

名称: Academic Reasoning and Intuition Chains
创建目的: 作为Reasoning Datasets Competition的概念验证项目
数据来源: 主要来自q-bio和econ.GN arXiv类别的开放获取研究论文

数据集内容

数据类型: 从研究论文中提取的推理和直觉链
特点:
- 反映研究者的逻辑结构、论证和理由
- 包含假设、探索和基于核心概念的直觉
- 捕捉研究过程中的探索性思维

数据集结构

文件结构:
- data/arxiv_metadata.jsonl: 主要类别元数据
- data/arxiv_metadata_nlin.jsonl: 非线性科学元数据
- dataset/data/train.jsonl: 处理后的训练数据
- dataset/data/zraw.jsonl: 未处理的原始数据
- dataset/data/zraw_curator.jsonl: 使用Curator生成的数据
数据条目结构:
- arxiv_id: 源论文标识符
- paper_doi: 原始论文DOI或URL
- paper_authors: 作者列表
- paper_published_date: 发布日期
- paper_updated_date: 最后更新日期
- conversations: 推理链的对话格式列表
- entry_type: "multi-short"或"single-long"
- categories: 论文的学术类别
- avg_thinking_tokens: 思考部分的平均token数
- model: 用于生成的LLM

数据集创建流程

元数据收集: 使用arxiv Python API获取论文元数据
PDF文本提取: 使用docling库提取文本
推理链提取: 使用LLMs提取推理链
- gemini-2.5-flash-preview-04-17
- gemini-2.5-pro-exp-03-25
- deepseek-ai/DeepSeek-V3
格式化和清理: 过滤并格式化为标准JSON结构

使用与评估

可用脚本:
- download_metadata.py: 下载ArXiv论文元数据
- generate_dataset_gemini.py: 使用Gemini模型生成数据集
- generate_dataset_togetherai.py: 使用Together AI模型生成数据集
- upload_dataset.py: 上传处理后的数据集到HuggingFace
- train_test/train.py: 在数据集上微调模型

局限性

来源偏差: 反映选定开放获取论文的主题、写作风格和潜在偏差
提取保真度: LLM提取可能引入错误
范围有限: 包含<1000个示例，可能未覆盖选定领域的所有推理模式

许可与引用

许可证: Apache License 2.0
引用格式: bibtex @misc{marcodsn_2025_academicchains, title = {Academic Reasoning and Intuition Chains Dataset}, author = {Marco De Santis}, month = {April}, year = {2025}, url = {https://huggingface.co/datasets/marcodsn/academic-chains} }

搜集汇总

数据集介绍

构建方式

在学术推理与直觉链数据集的构建过程中，研究团队采用了多阶段知识蒸馏框架。基于arXiv开放获取平台的q-bio和econ.GN领域文献，首先通过Python API获取论文元数据并完成相关性筛选，随后运用docling库从PDF原文中提取结构化文本。核心环节采用Gemini-2.5和DeepSeek-V3等大语言模型进行双重知识蒸馏：既提取论文中的多段短推理链（multi-short），也构建贯穿全文核心论证的长推理链（single-long），最终通过Bespoke Curator工具链完成数据清洗与标准化JSON格式转换。

特点

该数据集创新性地捕捉了科研文献中隐含的思维轨迹，其特色体现在三维度知识表征：在内容维度，完整保留原文假设探索与逻辑推导的思维过程；在结构维度，通过ChatML对话格式实现推理链的可追溯性；在元数据维度，精确标注来源文献的学术类别、作者信息及生成模型参数。每个样本包含平均思维标记数等量化指标，为分析不同学科领域的推理模式差异提供了数据基础。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行探索性分析，或利用项目提供的模块化工具链复现构建流程。脚本库包含从元数据下载、模型生成到数据集上传的完整pipeline，其中generate_dataset_gemini.py支持切换不同LLM进行知识蒸馏实验。对于模型微调任务，train_test目录下的训练脚本支持基于该数据集开发具备学术推理能力的AI系统。使用过程中需注意数据存在领域覆盖不均衡与模型幻觉风险，建议结合原文DOI进行交叉验证。

背景与挑战

背景概述

Academic Reasoning and Intuition Chains数据集由Marco De Santis及其团队于2025年4月创建，作为Reasoning Datasets Competition的概念验证项目。该数据集旨在从开放获取的研究论文中提取推理和直觉链，主要涵盖q-bio和econ.GN领域的arXiv论文。其核心研究问题聚焦于如何捕捉学术研究中隐含的逻辑结构、论证过程和直觉思维，为人工智能模型提供更贴近人类学术思维的训练数据。这一创新性尝试为自然语言处理领域，尤其是学术文本理解和推理任务，提供了宝贵的资源，推动了复杂推理能力建模的研究进展。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，学术文本的复杂推理链提取需要克服领域知识密集、论证结构多样化的难题，同时需确保提取的推理过程准确反映原文逻辑；构建过程方面，源数据的选择可能引入开放获取论文的领域偏差，而依赖大语言模型进行文本提取则面临幻觉生成和误解原文的风险。此外，当前数据集规模有限（不足1000例），难以全面覆盖目标领域的推理模式多样性，这为后续扩展提出了技术要求。

常用场景

经典使用场景

在学术研究领域，academic-chains数据集为研究者提供了一个独特的视角，通过捕捉开放获取研究论文中的推理和直觉链条，揭示了科学研究背后的逻辑结构和论证过程。这一数据集特别适用于q-bio和econ.GN领域的学者，帮助他们理解复杂学术论文中的推理路径，从而更高效地吸收和借鉴前人的研究成果。

实际应用

在实际应用中，academic-chains数据集可作为学术写作辅助工具，帮助学生和研究者更好地组织论文逻辑结构。教育机构可以将其纳入学术写作课程，培养研究生的科学推理能力。此外，该数据集还能为AI系统提供训练素材，开发更智能的学术助手，辅助科研人员进行文献综述和理论构建。

衍生相关工作

基于academic-chains数据集，已衍生出多项重要研究工作。其中包括利用该数据集训练的专业学术推理模型，以及结合大型语言模型的智能文献分析系统。这些工作不仅扩展了数据集的应用范围，还推动了学术知识提取和表示领域的发展，为科学研究的数字化转型提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集