five

askchem

收藏
Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/bing-yan/askchem
下载链接
链接失效反馈
官方服务:
资源简介:
AskChem是一个结构化化学知识索引数据集(摘要版),专为化学研究设计。该数据集采用分层多视图结构,每个条目都是从论文摘要中提取的原子知识声明,使用gpt-5-mini模型进行分类,并划分为7种同步层次视图。数据集包含821,372个声明,来自105,277篇源论文,涵盖8种层次视图和3,265个树节点。声明类型包括反应、性质、方法、机制、比较和计算结果等。数据集适用于文本分类和问答任务,特别适合化学领域知识图谱构建和科学声明分析。文件包括claims.jsonl(声明数据)、sources.jsonl(源论文元数据)、hierarchy/(层次结构)和metadata.json(数据集统计)。此外,还提供AskChem API用于访问完整索引(包括全文提取的声明)。
创建时间:
2026-04-01
原始信息汇总

AskChem: Structured Chemistry Knowledge Index (Abstract Edition) 数据集概述

数据集基本信息

  • 许可证: CC BY 4.0
  • 任务类别: 文本分类、问答
  • 语言: 英语
  • 标签: 化学、知识图谱、科学主张、分层索引、多视图、摘要提取
  • 规模: 100K < n < 1M

数据集描述

AskChem是一个用于化学研究的层次化、多视图知识索引。每个条目都是一个从论文摘要中提取的原子知识主张,使用gpt-5-mini提取,并同时分类到7个层次化视图中。

数据集统计

指标 数量
主张 821,372
源论文 105,277
层次化视图 8
树节点 3,265
提取模型 gpt-5-mini (abstract)
分类模型 gpt-5-mini

主张类型(摘要提取)

  • reaction -- 包含反应物、产物、条件、结果的化学转化
  • property -- 物质的测量或计算性质
  • method -- 实验或计算技术
  • mechanism -- 机理路径和过程
  • comparison -- 方法、材料或结果之间的比较
  • computational_result -- 计算化学结果

视图

  1. by_reaction_type -- 化学转化类型
  2. by_substance_class -- 涉及的分子/材料
  3. by_application -- 实际应用领域
  4. by_technique -- 实验/计算方法
  5. by_mechanism -- 潜在机理/现象
  6. by_claim_type -- 主张的认识论角色
  7. by_time_period -- 按时间顺序组织

文件

  • claims.jsonl -- 从摘要提取的主张(每行一个JSON对象)
  • sources.jsonl -- 源论文元数据
  • hierarchy/ -- 每个视图的树结构(扁平化节点)
  • metadata.json -- 数据集统计信息

引用

@dataset{askchem2026, title={AskChem: Structured Chemical Knowledge Infrastructure}, year={2026}, url={https://huggingface.co/datasets/bing-yan/askchem} }

搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,AskChem数据集通过自动化文本挖掘技术构建而成。该数据集从超过十万篇化学研究论文的摘要中,利用gpt-5-mini模型提取了超过八十二万条原子化知识主张。每条知识主张均被系统性地分类至七个同步的层次化视图中,涵盖反应类型、物质类别、应用领域、技术方法、作用机制、主张类型及时间周期,从而形成了一个结构严谨、多维度索引的化学知识图谱。
使用方法
研究人员可通过加载claims.jsonl文件直接访问数据集中的知识主张,并利用Python代码根据主张类型或文本内容进行灵活筛选与查询。例如,可快速提取所有催化反应相关的知识主张,或检索涉及特定分子如Suzuki耦合的引用记录。对于更全面的知识探索,用户可通过AskChem REST API访问包含全文提取主张的完整知识索引,实现程序化的大规模化学知识检索与集成。
背景与挑战
背景概述
在化学研究领域,科学知识的爆炸式增长使得研究人员难以高效地追踪和整合海量文献中的核心发现。AskChem数据集应运而生,由研究团队于2026年构建,旨在通过结构化索引系统,从超过十万篇化学论文摘要中自动提取原子化知识主张。该数据集聚焦于化学反应、物质性质、实验方法等七类核心研究实体,构建了一个多层次、多视角的知识图谱,为化学信息学、知识发现及人工智能驱动的文献挖掘提供了基础设施,显著提升了领域知识的可访问性与可计算性。
当前挑战
AskChem数据集致力于解决化学文献中知识碎片化与信息过载的挑战,其核心任务是从非结构化的文本中精准识别并分类细粒度的科学主张,如反应机理或计算化学结果,这要求模型具备深厚的领域语义理解能力。在构建过程中,团队面临两大挑战:一是利用大语言模型进行自动化提取时,需确保知识主张的准确性与一致性,避免因文本歧义导致错误归类;二是设计并维护一个涵盖反应类型、物质类别、应用领域等八个维度的层次化分类体系,要求体系既能全面覆盖化学子领域,又能保持逻辑清晰与可扩展性,以支撑复杂的多视角查询与知识推理。
常用场景
经典使用场景
在化学信息学领域,AskChem数据集以其层次化、多视角的知识索引结构,为研究人员提供了系统化的化学知识探索平台。该数据集最经典的使用场景是支持化学文献的智能检索与知识发现,用户可通过反应类型、物质类别、应用领域等多种视图,精准定位特定的化学主张,例如快速筛选出所有涉及Suzuki偶联反应的文献摘要,从而高效梳理研究脉络,加速科学假设的生成与验证过程。
解决学术问题
AskChem数据集有效解决了化学研究中知识碎片化与信息过载的长期挑战。通过从大量论文摘要中自动提取原子化知识主张并进行多层级分类,它将非结构化的文本转化为结构化知识,使得系统性文献综述、知识图谱构建以及跨领域关联分析成为可能。这不仅提升了化学知识的可计算性,也为机器学习模型提供了高质量的标注数据,推动了化学自然语言处理与科学发现自动化的发展。
实际应用
在实际应用层面,AskChem数据集为化学研发与教育提供了强大的工具支持。制药与材料科学领域的研发人员可利用其快速评估特定反应或物质的研究现状,辅助实验设计。教育工作者则能基于其层次化知识视图构建动态教学资源。此外,通过其提供的API,该数据集能够无缝集成到智能科研助手或文献管理系统中,实现化学知识的实时查询与推送,显著提升科研效率与知识传播的广度。
数据集最近研究
最新研究方向
在化学信息学领域,AskChem数据集凭借其层次化多视角知识索引架构,正推动结构化化学知识表示的前沿探索。该数据集通过大语言模型从海量文献摘要中提取原子化知识主张,涵盖反应、性质、方法等七类核心声明,为构建动态化学知识图谱提供了精细语义标注基础。当前研究热点聚焦于利用其多视图分类体系,开发跨模态检索与推理系统,以支持自动化文献综述、假设生成及实验设计优化。这一基础设施的建立,显著加速了化学发现周期,并为人工智能驱动的材料研发与反应预测模型提供了可解释性数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作