bluesky333/chemical_language_understanding_benchmark

Name: bluesky333/chemical_language_understanding_benchmark
Creator: bluesky333
Published: 2024-07-19 14:15:17
License: 暂无描述

Hugging Face2024-07-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bluesky333/chemical_language_understanding_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CLUB（化学语言理解基准）数据集发布于ACL2023工业轨道，旨在促进化学工业中的自然语言处理研究。该数据集是首批由工业组织提供的包含专利和文献文章任务的基准数据集之一，所有数据均由专业化学家进行标注。数据集包含四个子集：两个用于文本分类，两个用于标记分类，涵盖了石油化工、流变学、催化剂和电池等领域。数据来源于公开的化学出版物和专利，并以JSON格式提供，每个实例为学术论文或专利的段落/句子，并带有标注。数据集的语言为英语，数据分割为80%训练集和20%开发集。

提供机构：

bluesky333

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
任务类别:
- 文本分类
- 令牌分类
语言: 英语
标签: 化学
美观名称: CLUB
大小类别: 10K<n<100K

数据集结构

数据集: 4个
- PETROCHEMICAL: 专利区域分类，2,775个示例，平均令牌长度448.19，7个类别
- RHEOLOGY: 句子分类，2,017个示例，平均令牌长度55.03，5个类别
- CATALYST: 催化剂实体识别，4,663个示例，平均令牌长度42.07，5个实体组
- BATTERY: 电池实体识别，3,750个示例，平均令牌长度40.73，3个实体组

数据实例

每个示例是一个学术论文或专利的段落/句子，带有json格式的注释。

数据字段

文本分类任务:
1. id: 唯一编号标识符
2. sentence: 输入文本
3. label: 文本类别
令牌分类任务:
1. id: 唯一编号标识符
2. tokens: 通过BPE分词器分词的输入文本
3. ner_tags: 令牌的实体标签

数据分割

训练/开发分割比例: 80/20

数据集创建

精选理由: 为化学语言模型研究者提供基准
源数据: 开放获取的化学出版物和专利，由专业化学家注释

许可证信息

手动注释的许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)

引用信息

待ACL2023行业跟踪论文发布后提供

搜集汇总

数据集介绍

构建方式

在化学信息学领域，专业数据集的构建对于推动自然语言处理技术的应用至关重要。CLUB数据集通过系统化流程构建，其核心数据来源于公开的化学学术文献与专利文档。为确保标注质量，所有文本均由专业化学家进行人工标注，涵盖专利领域分类、句子分类以及催化剂与电池实体识别四大任务。数据以JSON格式组织，每个实例包含唯一标识符、文本内容及相应标签，并按照80%训练集与20%开发集的比例进行划分，为化学语言理解研究提供了结构化的基准资源。

特点

该数据集在化学自然语言处理领域展现出鲜明的专业特性。其内容涵盖石油化工、流变学、催化剂及电池等多个化学子领域，包含文本分类与实体识别两类核心任务，共计四个独立子集。数据规模介于一万至十万条之间，文本平均长度从40至448个词元不等，平衡了深度与广度。所有标注均基于化学专家的领域知识，确保了标签的准确性与权威性。作为工业界组织提供的首批涵盖专利与文献的基准数据集之一，它为模型在真实化学文本上的理解与泛化能力评估设立了高标准。

使用方法

研究人员可利用该数据集对化学领域的语言模型进行训练与评估。对于文本分类任务，模型接收句子或段落作为输入，预测其所属的预定义类别；而在实体识别任务中，模型需对经过BPE分词的序列进行命名实体标注。数据集已预先分割为训练集与开发集，便于进行标准的监督学习流程。使用者可依据具体任务加载相应子集，通过微调预训练模型或设计专用架构，以提升模型在化学专利分析、文献信息抽取等实际应用中的性能。该数据集遵循CC-BY-4.0许可协议，支持广泛的学术与工业应用。

背景与挑战

背景概述

化学语言理解基准（CLUB）数据集于2023年在ACL工业轨道会议上发布，由工业组织主导构建，旨在推动化学工业领域的自然语言处理研究。该数据集作为首批同时涵盖专利与学术文献任务的基准之一，其标注工作由专业化学家完成，确保了数据的权威性与准确性。数据来源于公开的化学出版物与专利，涵盖了石油化工、流变学、催化剂及电池等多个子领域，通过文本分类与实体识别任务，为化学文本的智能解析提供了重要资源。该数据集的建立不仅填补了化学领域语言模型评估的空白，也为跨学科研究提供了标准化工具，显著促进了化学信息学与人工智能的融合。

当前挑战

化学语言理解基准（CLUB）数据集致力于解决化学文本的自动化理解问题，其核心挑战在于化学领域的专业性与复杂性。化学文献中充斥着大量专业术语、符号及非结构化表述，如分子式、反应机理等，这要求模型具备深厚的领域知识才能准确解析。在构建过程中，数据标注面临严峻挑战：化学文本的歧义性较高，需要专业化学家进行精细标注，但标注成本高昂且标准难以统一；同时，数据来源的多样性与领域特异性导致数据分布不均衡，影响了模型的泛化能力。此外，化学文本的跨任务适应性，如从分类到实体识别的迁移，也对基准的全面性提出了更高要求。

常用场景

经典使用场景

在化学信息学与自然语言处理交叉领域，CLUB数据集为研究者提供了评估模型在专业文本理解能力上的基准。其经典使用场景集中于对化学专利与学术文献进行细粒度分析，例如通过文本分类任务识别石油化工专利的技术领域，或利用命名实体识别从催化剂与电池相关文献中抽取关键物质成分。这些任务要求模型不仅理解通用语言，还需掌握化学领域的专业术语与上下文逻辑，从而推动领域自适应语言模型的发展。

实际应用

在实际工业与科研场景中，CLUB数据集能够辅助构建智能化学信息提取系统，加速专利技术调研与文献综述。例如，在石油化工领域，自动分类专利技术方向可帮助企业快速定位竞争对手布局；在电池研发中，实体识别系统能从海量论文中自动汇总电极材料与电解质成分，缩短实验设计周期。这些应用显著提升化学研究人员的信息处理效率，并为行业知识图谱构建、智能实验室助手等工具开发提供核心数据支持。

衍生相关工作

围绕CLUB数据集，学术界已衍生出一系列经典研究工作。部分研究聚焦于基于该数据集的领域预训练语言模型优化，如针对化学文本的BERT变体训练，以提升下游任务性能。另有工作探索多任务学习框架，统一处理数据集中分类与实体识别任务，验证领域知识迁移的有效性。此外，该数据集常被用作评估化学大型语言模型专业能力的基准，推动了如SciBERT、ChemBERTa等模型在化学NLP领域的应用与比较研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集