ChEMU-Ref Dataset

github2023-01-26 更新2024-05-31 收录

下载链接：

https://github.com/biaoyanf/ChEMU-Ref

下载链接

链接失效反馈

官方服务：

资源简介：

ChEMU-Ref数据集用于建模化学领域中的指代消解问题，提供了训练和开发集，以及详细的标注指南。

The ChEMU-Ref dataset is designed for modeling the problem of reference resolution in the field of chemistry, providing both training and development sets, along with detailed annotation guidelines.

创建时间：

2021-01-18

原始信息汇总

数据集概述

数据集名称

ChEMU-Ref Dataset

数据集描述

ChEMU-Ref Dataset 是一个用于化学领域中指代消解建模的语料库。

数据集内容

数据集包含训练和开发集，以jsonlines格式存储。

数据集格式

输入格式为*.jsonlines*文件，每行包含一个批次的句子，格式如下：

{ "doc_key": "0414", "sentences": [...] "Coreference": [...] "Transformed": [] "Reaction-associated": [...] "Work-up": [...] "Contained": [] }

其中，每个对包含两个提及：第一个是anaphora，第二个是antecedent。

实验结果

在ChEMU-Ref数据集上的主要实验结果如下：

Relation	Method	P<sub>A</sub>	R<sub>A</sub>	F<sub>A</sub>	P<sub>R</sub>	R<sub>R</sub>	F<sub>R</sub>
Coref. (Surface)	coreference	89.4	55.9	68.7	79.2	47.7	59.5
	joint_train	91.4	56.0	69.5	81.3	48.0	60.3
Coref. (Atom)	coreference	89.4	55.9	68.7	81.3	48.3	60.6
	joint_train	91.4	56.0	69.5	83.9	48.8	61.7
Bridging	bridging	89.5	83.9	86.6	81.4	72.8	76.8
	joint_train	91.2	84.1	87.5	83.1	74.1	78.3
TR	bridging	78.6	84.7	81.5	77.4	84.7	80.8
	joint_train	79.7	85.9	82.7	77.6	85.9	81.5
RA	bridging	89.5	84.6	87.0	80.6	68.5	74.0
	joint_train	91.4	85.6	88.4	82.7	69.2	75.3
WU	bridging	91.5	84.0	87.5	81.9	74.3	77.9
	joint_train	93.1	83.7	88.1	83.6	76.0	79.6
CT	bridging	89.8	77.5	83.1	85.1	70.0	76.8
	joint_train	91.3	77.0	83.3	85.9	69.4	76.4
Overall	joint_train	91.2	74.0	81.7	82.8	68.7	75.1

这些结果基于提出的模型，模型训练了30,000个周期，并在不同的随机种子上平均运行了3次。F<sub>A</sub>和F<sub>R</sub>分别表示anaphor和关系预测的F1分数。

搜集汇总

数据集介绍

构建方式

ChEMU-Ref数据集的构建基于化学领域的指代消解任务，旨在解决化学文本中的指代关系问题。数据集通过从化学专利文献中提取句子，并由专业标注人员根据详细的标注指南进行标注。标注内容包括指代关系、反应关联和工作步骤等，确保了数据的多样性和复杂性。数据以jsonlines格式存储，每条记录包含句子、指代关系及其他相关标注信息。

使用方法

使用ChEMU-Ref数据集时，首先需安装Python环境及相关依赖，并下载预训练的词向量模型（如GloVe和ChELMo）。通过运行提供的脚本文件，用户可以配置实验参数并启动模型训练。训练完成后，使用评估工具对模型性能进行测试，评估结果将存储在指定目录中。数据集的输入格式为jsonlines文件，每条记录包含句子及其指代关系标注，便于直接用于模型训练与测试。

背景与挑战

背景概述

ChEMU-Ref数据集由Biaoyan Fang等研究人员于2021年提出，旨在解决化学领域中的指代消解问题。该数据集首次在EACL 2021会议上发布，并由墨尔本大学等机构的研究团队共同开发。其核心研究问题在于如何准确识别化学文本中的指代关系，特别是化学物质和反应步骤之间的复杂关联。ChEMU-Ref的发布为化学信息抽取和自然语言处理领域提供了重要的数据支持，推动了化学文本理解技术的发展。

当前挑战

ChEMU-Ref数据集面临的挑战主要体现在两个方面。首先，化学文本中指代关系的复杂性使得模型难以准确识别化学物质及其上下文关系，尤其是在多步反应中，指代关系往往具有高度的模糊性和多样性。其次，数据集的构建过程中，标注化学文本的指代关系需要高度的领域专业知识，且标注一致性难以保证，这对数据质量和模型训练提出了更高的要求。此外，化学文本的多样性和领域特定术语的广泛使用，进一步增加了模型泛化能力的挑战。

常用场景

经典使用场景

ChEMU-Ref数据集在化学领域的指代消解任务中展现了其独特的价值。该数据集通过提供化学专利文献中的句子和指代关系，为研究者提供了一个标准化的测试平台。通过使用该数据集，研究者可以训练和评估指代消解模型，特别是在化学文本中处理复杂的指代链和化学实体之间的关系。

解决学术问题

ChEMU-Ref数据集解决了化学文本中指代消解的核心问题，尤其是在化学专利文献中，化学实体的指代关系往往复杂且多样。通过提供详细的标注数据和实验配置，该数据集帮助研究者开发出更精确的指代消解模型，提升了化学文本理解的自动化水平。

实际应用

在实际应用中，ChEMU-Ref数据集被广泛用于化学信息提取和知识图谱构建。通过准确识别化学实体及其指代关系，该数据集支持化学专利分析、药物研发中的文献挖掘以及化学知识库的自动化构建，显著提高了化学领域信息处理的效率和准确性。

数据集最近研究