ChemTable
收藏arXiv2025-06-13 更新2025-06-17 收录
下载链接:
https://github.com/lqzxt/ChemTable
下载链接
链接失效反馈官方服务:
资源简介:
ChemTable 是一个针对现实世界化学表格的大型基准数据集,从同行评审的化学文献的实验部分精心策划而来。该数据集包括专家注释的单元格多边形、逻辑布局和特定领域的标签,包括试剂、催化剂、产率和图形组件,并支持两项核心任务:表格识别(包括结构解析和内容提取)和表格理解(包括基于表格结构和领域语义的描述性和推理性问题回答)。ChemTable 数据集由超过 1300 个表格组成,涵盖了各种反应类型、实验条件和报告格式,支持通过超过 9000 个 QA 实例进行评估,旨在解决科学文献中的表格理解和推理问题。
ChemTable is a large-scale benchmark dataset for real-world chemical tables, meticulously curated from the experimental sections of peer-reviewed chemical literature. It includes expert-annotated cell polygons, logical layouts, and domain-specific labels such as reagents, catalysts, yields, and graphical components, and supports two core tasks: table recognition (encompassing structural parsing and content extraction) and table understanding (including descriptive and reasoning question answering grounded in table structure and domain-specific semantics). Comprising over 1,300 tables spanning diverse reaction types, experimental conditions and reporting formats, ChemTable provides more than 9,000 QA instances to facilitate evaluation, and is designed to address table understanding and reasoning challenges in scientific literature.
提供机构:
中国科学技术大学认知智能国家重点实验室,科大讯飞股份有限公司人工智能研究院
创建时间:
2025-06-13
原始信息汇总
ChemTable 数据集概述
数据集简介
ChemTable 是一个大规模基准测试数据集,旨在测试多模态大语言模型(MLLMs)在理解和识别现实世界化学表格方面的能力。化学表格是科学文献中信息密度最高且视觉复杂度最高的格式之一。
关键特性
- 多模态基准测试
结合了符号化学公式、表格结构、视觉分子图和科学文本。 - 两大核心任务
- 表格识别:检测结构、提取内容并识别分子。
- 表格理解:回答基于表格的描述性和推理性问题。
- 具有挑战性的问答数据集
包含 9,000 多个问题(描述性 + 推理性),通过人工标注和 LLM 辅助合成相结合的方式构建。
数据集结构
- 表格类型:反应优化、底物筛选、性质比较、分子结构表等。
- 视觉标注:边界框、样式(粗体/颜色)、分子图。
- 逻辑标注:行/列位置、单元格值、化学元数据。
任务
表格识别
| 子任务 | 描述 | 指标 |
|---|---|---|
| 值检索 | 定位给定(行、列)处的确切内容 | 准确率 |
| 位置检索 | 从给定内容推断位置 | 准确率 |
| 分子识别 | 从嵌入图中识别 SMILES | Tanimoto |
表格理解
- 描述性和推理性问题:基于表格内容回答相关问题。
数据来源
- 构建自 1,300 多个来自高影响力化学期刊的表格。
搜集汇总
数据集介绍

构建方式
在化学文献解析领域,ChemTable数据集的构建采用了多阶段专家协同标注范式。研究团队从ACS Catalysis、JACS等顶级期刊近十年的实验章节中筛选出1,382张化学表格,通过三阶段标注流程确保数据质量:首先进行表格类型分类(如条件优化表、底物筛选表等),继而由化学专业团队标注单元格多边形坐标与逻辑布局,最后完成包含试剂、催化剂、产率等9,000余项领域标签的语义标注。所有标注均通过OCR校验并记录文本样式特征(加粗、斜体、色彩),同时采用双重人工校验与模型验证机制保障标注一致性。
特点
该数据集的核心价值在于其多模态化学语义的深度整合。相较于通用表格数据集,ChemTable创新性地融合了三种关键特征:1) 分子结构图形与符号化表达的联合标注,包含4,123个SMILES编码的分子图示;2) 化学专属逻辑标签体系,覆盖催化剂配体关系、立体选择性等专业维度;3) 双层任务架构,既支持表格结构解析(TEDS指标评估)等基础任务,又包含需要跨模态推理的描述性与推理性问答(如产率趋势分析、苯环计数)。其1,019条表格注释与892个反应条目构成了当前最完整的化学表格语义表示体系。
使用方法
该数据集支持端到端的化学表格认知研究,主要应用于三个维度:1) 结构识别任务中,可通过HTML序列生成评估模型对复杂版式的解析能力;2) 内容理解任务提供细粒度检索范式,包括基于坐标的数值检索(Value Retrieval)和基于内容的定位检索(Position Retrieval);3) 问答任务分为描述性问答(提取标题、注释等)与推理性问答(产率计算、条件优化等),支持纯视觉、纯文本及混合模态输入。评估时建议采用TEDS-Struct指标衡量结构重建质量,结合GPT-4.1辅助的自动评分机制保证问答任务评估效率。
背景与挑战
背景概述
ChemTable是由中国科学技术大学认知智能国家重点实验室的研究团队于2025年提出的一个专注于化学表格识别与理解的大规模多模态基准数据集。该数据集从ACS Catalysis、JACS等顶级化学期刊的实验章节中精选了1,382个真实化学表格,包含专家标注的单元格多边形、逻辑布局和9,000余个问答实例。其核心研究在于解决多模态大语言模型在科学文献中化学表格这类信息密集、领域专精模态上的理解瓶颈,填补了现有基准在化学领域特异性与多模态复杂性评估方面的空白。作为首个系统整合化学符号表达、结构化变量与分子图形嵌入的基准,ChemTable通过表结构识别和基于领域语义的问答任务,为促进科学推理能力的发展提供了严谨的评估框架。
当前挑战
ChemTable面临的挑战主要体现在两个维度:领域问题层面,化学表格中密集的符号表示(如试剂缩写BINAP)、分子结构图示及隐含实验规范(如产率比值>19/1)构成了独特的跨模态对齐难题,现有模型在描述性QA任务上的准确率较人类水平低21.7%;数据构建层面,化学表格的异构排版(如合并单元格占比38.7%)、专业术语的语义歧义(TFA同时表示三氟乙酸与全氟烷基),以及分子图形到SMILES的精确转换(DECIMER专业模型准确率超出现有MLLMs 32.5%)都极大增加了标注复杂度。此外,推理类问题要求模型同时处理数值比较、趋势分析和多跳检索等任务,当前最优模型在这些任务上的平均表现仍落后人类专家14.3个百分点。
常用场景
经典使用场景
在化学研究领域,ChemTable数据集为多模态大语言模型(MLLMs)提供了一个评估平台,专注于化学表格的识别与理解任务。该数据集通过真实化学文献中的表格,结合专家标注的单元格多边形、逻辑布局及领域特定标签(如试剂、催化剂、产率等),支持两大核心任务:表格结构解析与内容提取(识别任务),以及基于表格结构和领域语义的描述性与推理型问答(理解任务)。这一场景典型地应用于验证模型对化学符号、结构化变量及嵌入式分子图形等多模态复杂信息的处理能力。
解决学术问题
ChemTable解决了现有基准在化学领域多模态复杂性表征不足的问题,填补了科学文献中表格模态评估的空白。其意义在于:1)首次系统化定义了化学表格的语义解析标准,如分子图SMILES转换、反应条件逻辑关联等;2)揭示了MLLMs在符号理解(如产率比较)、视觉-语义对齐(如分子结构识别)等任务上的性能瓶颈;3)通过超过9000个QA实例,建立了化学领域推理能力的量化评估体系,为模型优化提供了明确方向。该数据集推动了科学文档理解从通用向领域专用的范式转变。
衍生相关工作
ChemTable催生了一系列化学信息学与多模态学习的交叉研究:1)基于其分子识别任务,DECIMER等专用模型提升了SMILES转换精度;2)启发SCITAB等科学表格基准扩展生物医学领域评估;3)推动如Qwen-VL等开源模型通过领域适配(如LoRA微调)优化化学符号理解。相关论文进一步探索了表格-文本跨模态预训练(ChemVLM)、以及分子图神经网络与MLLMs的融合架构(MOLGRAPHER),形成“化学表格作为多模态推理试验场”的研究脉络。
以上内容由遇见数据集搜集并总结生成



