timo-pierre-schrader/MuLMS

Name: timo-pierre-schrader/MuLMS
Creator: timo-pierre-schrader
Published: 2023-11-01 13:41:32
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/timo-pierre-schrader/MuLMS

下载链接

链接失效反馈

官方服务：

资源简介：

MuLMS（多层材料科学语料库）包含50份来自材料科学领域的文档，涵盖了7个子领域：电解、石墨烯、聚合物电解质燃料电池（PEMFC）、固体氧化物燃料电池（SOFC）、聚合物、半导体和钢铁。这些文档由领域专家进行了详尽的注释，注释包括句子级别和标记级别的信息，支持多种NLP任务，如测量框架、命名实体、关系和论证区域。数据集提供了两种配置：MuLMS_Corpus和NER_Dependencies，分别用于加载整个数据集和仅加载命名实体信息。数据集分为训练、验证和测试集，训练集进一步细分为五个子集。数据集的使用旨在从材料科学文档中提取信息，支持训练神经网络分类器用于下游任务。

提供机构：

timo-pierre-schrader

原始信息汇总

数据集卡片 for MuLMS

数据集描述

名称: Multi-Layer Materials Science Corpus (MuLMS)

领域: 材料科学

文档数量: 50

子领域: "Electrolysis", "Graphene", "Polymer Electrolyte Fuel Cell (PEMFC)", "Solid Oxide Fuel Cell (SOFC)", "Polymers", "Semiconductors", "Steel"

语言: 英语

许可: CC BY-SA 4.0

任务类别:

填空 (fill-mask)
词性标注 (token-classification)
文本分类 (text-classification)

任务ID:

命名实体识别 (named-entity-recognition)
槽填充 (slot-filling)

注释级别

句子级注释:
- 测量框架 (Measurement Frames)
- 论证区域 (Argumentative Zones)
词级注释:
- 命名实体 (Named Entities)
- 关系 (Relations)

注释详情

测量框架 (Measurement Frames):
- 使用MEASUREMENT标记触发词，如“was measured”, “is plotted”。
- 句子级任务：判断句子是否包含测量触发词。
- 命名实体识别：确定触发测量框架的词段。
命名实体 (Named Entities):
- 12种词级命名实体（包括测量触发词）。
- 命名实体可以跨多个词。
关系 (Relations):
- 两种关系类型：测量相关关系和进一步关系。
- 测量相关关系始于测量触发词，进一步关系则不限于特定测量注释。
论证区域 (Argumentative Zones):
- 每个句子分配一个修辞功能，如“背景”或“实验准备”。
- 12种论证区域，导致句子级分类任务。

数据集结构

配置

MuLMS_Corpus:
- 加载整个MuLMS数据集。
NER_Dependencies:
- 仅加载命名实体，以CONLL格式，用于依赖解析设置。

数据分割

分割: train, validation, test
训练子分割: tune1, tune2, tune3, tune4, tune5

字段

MuLMS_Corpus:
- doc_id: 文档ID
- sentence: 句子
- tokens: 预分词句子
- begin_offset: 句子起始偏移
- end_offset: 句子结束偏移
- AZ_labels: 论证区域标签
- Measurement_label: 测量描述标签
- NER_labels: 命名实体标签
- NER_labels_BILOU: BILOU标签序列
- relations: 实体间关系
- docFileName: 源文档名称
- data_split: 数据分割
- category: 材料科学子领域
NER_Dependencies:
- index: 实例ID
- ID: 句子ID
- Sentence: 句子字符串
- Token_ID: 词ID
- Token: 词字符串
- NE_Dependencies: 命名实体标签
- data_split: 数据分割

测量框架 (Measurement Frames):
- Measurement
- Qual_Measurement
命名实体 (Named Entities):
- MAT
- NUM
- VALUE
- UNIT
- PROPERTY
- FORM
- MEASUREMENT
- CITE
- SAMPLE
- TECHNIQUE
- DEV
- RANGE
- INSTRUMENT
关系 (Relations):
- hasForm
- measuresProperty
- usedAs
- propertyValue
- conditionProperty
- conditionSample
- conditionPropertyValue
- usesTechnique
- measuresPropertyValue
- usedTogether
- conditionEnv
- usedIn
- conditionInstrument
- takenFrom
- dopedBy
论证区域 (Argumentative Zones):
- Motivation
- Background
- Experiment
- Explanation
- Results
- Conclusion
- Heading
- Caption
- Metadata

搜集汇总

数据集介绍

构建方式

在材料科学领域，信息抽取任务因缺乏高质量标注语料而面临挑战。MuLMS数据集由此应运而生，由Bosch人工智能中心和Bosch研究团队联合构建。该数据集精选了50篇涵盖电解、石墨烯、聚合物电解质燃料电池等7个子领域的材料科学文献，并由领域专家采用INCEpTION工具进行详尽的多层标注。标注过程经历了专门的指南设计讨论环节，确保了标注的一致性与准确性。数据集以UIMA CAS XMI格式存储，并提供了HuggingFace上的两种配置：MuLMS_Corpus包含完整的语料信息，而NER_Dependencies则以CONLL格式聚焦于命名实体，便于进行依存解析式的NER训练。数据被划分为训练、验证和测试集，其中训练集进一步细分为五个子集，为模型的调优与评估提供了灵活的支持。

特点

MuLMS数据集的显著特点在于其多层标注架构的丰富性与专业性。它集成了四个层面的标注任务：首先是测量框架，以句子级分类和触发词识别来标记测量描述；其次是命名实体识别，涵盖了12种细粒度的实体类型，如材料、数值、属性等；再次是关系抽取，提供了15种实体间关系，包括测量相关关系及其他语义关联；最后是论证区域分类，为每个句子分配了12种修辞功能，如背景、实验准备等。这种多层次、多维度的标注体系，使得MuLMS不仅支持传统的NER和关系抽取，还能同时处理测量信息提取和篇章结构分析，为材料科学文献的深度语义理解提供了独特的数据支撑。

使用方法

MuLMS数据集的使用方式灵活多样，适用于多种自然语言处理任务。用户可直接利用HuggingFace datasets库加载MuLMS_Corpus或NER_Dependencies配置，获取预分词句子、BILOU标签、实体关系等结构化数据。对于NER和关系抽取任务，可基于BERT等预训练模型进行微调；测量框架和论证区域分类则作为句子级分类任务处理。数据集提供的训练子集（tune1至tune5）允许用户采用四折训练、一折早停的策略，结合验证集进行模型选择，最终在测试集上评估性能。此外，原始UIMA CAS XMI格式文件也可直接导入如INCEpTION等标注工具进行可视化或二次加工，满足定制化研究需求。

背景与挑战

背景概述

材料科学领域的研究文献数量呈指数级增长，如何从海量非结构化文本中高效提取关键信息，已成为制约该领域知识发现与复用的核心瓶颈。为应对这一挑战，由博世人工智能中心与博世研究团队于2023年联合创建的MuLMS（Multi-Layer Materials Science Corpus）数据集应运而生。该数据集汇聚了来自电解、石墨烯、聚合物电解质燃料电池等七个子领域的50篇科学文献，由领域专家进行了多层次的精细标注，涵盖命名实体识别、关系抽取、论元区域分类及测量框架检测等自然语言处理任务。MuLMS的提出不仅为材料科学信息抽取提供了高质量的基准资源，更推动了跨学科研究范式的融合，其影响力已在计算语言学与材料信息学交叉领域引发广泛关注。

当前挑战

MuLMS数据集所面临的挑战首先体现在领域问题的复杂性上：材料科学文本中充斥着高度专业化的术语、多义性表达以及复杂的实体间关系（如测量属性与条件变量间的依赖），传统的通用信息抽取模型难以直接迁移。其次，在数据集构建过程中，标注团队需克服两大困难：一是跨子领域知识覆盖的全面性，确保标注体系能兼容从石墨烯到半导体等差异显著的学科分支；二是标注一致性的保障，尤其是对于论元区域分类中12种修辞功能（如背景、实验准备）的界定，以及测量触发词与实体间多达15种关系类型（如'measuresProperty'、'dopedBy'）的精准标注。此外，多层级标注框架（如同时处理词级、句子级与跨句关系）对标注工具与流程的协同性提出了极高要求。

常用场景

经典使用场景

MuLMS（Multi-Layer Materials Science Corpus）是一个专为材料科学领域信息抽取任务设计的多层标注语料库，涵盖了电解、石墨烯、聚合物电解质燃料电池等七个子领域。该数据集最经典的使用场景是训练和评估面向材料科学文献的命名实体识别（NER）模型，特别是识别材料名称（MAT）、数值（NUM）、属性（PROPERTY）、测量触发词（MEASUREMENT）等12类实体。此外，它还支持关系抽取任务，例如测量相关关系（如measuresProperty）和条件关系（如conditionSample），以及句子级别的论元区域分类（如Background、Experiment_Preparation）。研究者可利用其丰富的标注层次，构建端到端的信息提取系统，从非结构化的科学文献中自动抽取结构化知识。

实际应用

在实际应用中，MuLMS数据集驱动的模型可部署于材料科学文献管理平台，实现自动化的文献摘要生成、实验条件检索和材料性能数据库构建。例如，研究人员可查询“在SOFC中，使用何种技术测量了电导率”，系统能从语料中精准定位相关句子并提取测量值、单位和条件。该数据集还支持开发智能问答系统，帮助工程师快速验证假设或寻找类似实验设置。此外，其标注规范可迁移至工业场景，如专利分析或技术报告处理，辅助企业跟踪竞争技术动向，加速新材料研发过程中的知识发现与决策。

衍生相关工作

MuLMS数据集衍生了一系列经典工作，包括基于BERT的序列标注模型在NER任务上的基准实验，以及将命名实体识别转化为依存解析任务的创新方法（NER as Dependency Parsing）。研究者还利用其论元区域标注，提出了针对材料科学文献的论证结构分析模型，并在CODI 2023会议上发表了相关论文（Schrader et al., 2023）。此外，该数据集促进了多任务学习框架的发展，例如联合优化实体识别、关系抽取和测量框架检测，从而提升整体信息抽取性能。这些工作不仅推动了材料科学NLP领域的进步，也为其他科学领域（如化学、生物学）的语料标注和模型设计提供了可借鉴的范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集