five

ChEMU-Ref Dataset

收藏
github2023-01-26 更新2024-05-31 收录
下载链接:
https://github.com/biaoyanf/ChEMU-Ref
下载链接
链接失效反馈
官方服务:
资源简介:
ChEMU-Ref数据集用于建模化学领域中的指代消解问题,提供了训练和开发集,以及详细的标注指南。

The ChEMU-Ref dataset is designed for modeling the problem of reference resolution in the field of chemistry, providing both training and development sets, along with detailed annotation guidelines.
创建时间:
2021-01-18
原始信息汇总

数据集概述

数据集名称

  • ChEMU-Ref Dataset

数据集描述

  • ChEMU-Ref Dataset 是一个用于化学领域中指代消解建模的语料库。

数据集内容

  • 数据集包含训练和开发集,以jsonlines格式存储。

数据集格式

  • 输入格式为*.jsonlines*文件,每行包含一个批次的句子,格式如下:

    { "doc_key": "0414", "sentences": [...] "Coreference": [...] "Transformed": [] "Reaction-associated": [...] "Work-up": [...] "Contained": [] }

    其中,每个对包含两个提及:第一个是anaphora,第二个是antecedent

实验结果

  • 在ChEMU-Ref数据集上的主要实验结果如下:

    Relation Method P<sub>A</sub> R<sub>A</sub> F<sub>A</sub> P<sub>R</sub> R<sub>R</sub> F<sub>R</sub>
    Coref. (Surface) coreference 89.4 55.9 68.7 79.2 47.7 59.5
    joint_train 91.4 56.0 69.5 81.3 48.0 60.3
    Coref. (Atom) coreference 89.4 55.9 68.7 81.3 48.3 60.6
    joint_train 91.4 56.0 69.5 83.9 48.8 61.7
    Bridging bridging 89.5 83.9 86.6 81.4 72.8 76.8
    joint_train 91.2 84.1 87.5 83.1 74.1 78.3
    TR bridging 78.6 84.7 81.5 77.4 84.7 80.8
    joint_train 79.7 85.9 82.7 77.6 85.9 81.5
    RA bridging 89.5 84.6 87.0 80.6 68.5 74.0
    joint_train 91.4 85.6 88.4 82.7 69.2 75.3
    WU bridging 91.5 84.0 87.5 81.9 74.3 77.9
    joint_train 93.1 83.7 88.1 83.6 76.0 79.6
    CT bridging 89.8 77.5 83.1 85.1 70.0 76.8
    joint_train 91.3 77.0 83.3 85.9 69.4 76.4
    Overall joint_train 91.2 74.0 81.7 82.8 68.7 75.1

    这些结果基于提出的模型,模型训练了30,000个周期,并在不同的随机种子上平均运行了3次。F<sub>A</sub>和F<sub>R</sub>分别表示anaphor和关系预测的F1分数。

搜集汇总
数据集介绍
main_image_url
构建方式
ChEMU-Ref数据集的构建基于化学领域的指代消解任务,旨在解决化学文本中的指代关系问题。数据集通过从化学专利文献中提取句子,并由专业标注人员根据详细的标注指南进行标注。标注内容包括指代关系、反应关联和工作步骤等,确保了数据的多样性和复杂性。数据以jsonlines格式存储,每条记录包含句子、指代关系及其他相关标注信息。
使用方法
使用ChEMU-Ref数据集时,首先需安装Python环境及相关依赖,并下载预训练的词向量模型(如GloVe和ChELMo)。通过运行提供的脚本文件,用户可以配置实验参数并启动模型训练。训练完成后,使用评估工具对模型性能进行测试,评估结果将存储在指定目录中。数据集的输入格式为jsonlines文件,每条记录包含句子及其指代关系标注,便于直接用于模型训练与测试。
背景与挑战
背景概述
ChEMU-Ref数据集由Biaoyan Fang等研究人员于2021年提出,旨在解决化学领域中的指代消解问题。该数据集首次在EACL 2021会议上发布,并由墨尔本大学等机构的研究团队共同开发。其核心研究问题在于如何准确识别化学文本中的指代关系,特别是化学物质和反应步骤之间的复杂关联。ChEMU-Ref的发布为化学信息抽取和自然语言处理领域提供了重要的数据支持,推动了化学文本理解技术的发展。
当前挑战
ChEMU-Ref数据集面临的挑战主要体现在两个方面。首先,化学文本中指代关系的复杂性使得模型难以准确识别化学物质及其上下文关系,尤其是在多步反应中,指代关系往往具有高度的模糊性和多样性。其次,数据集的构建过程中,标注化学文本的指代关系需要高度的领域专业知识,且标注一致性难以保证,这对数据质量和模型训练提出了更高的要求。此外,化学文本的多样性和领域特定术语的广泛使用,进一步增加了模型泛化能力的挑战。
常用场景
经典使用场景
ChEMU-Ref数据集在化学领域的指代消解任务中展现了其独特的价值。该数据集通过提供化学专利文献中的句子和指代关系,为研究者提供了一个标准化的测试平台。通过使用该数据集,研究者可以训练和评估指代消解模型,特别是在化学文本中处理复杂的指代链和化学实体之间的关系。
解决学术问题
ChEMU-Ref数据集解决了化学文本中指代消解的核心问题,尤其是在化学专利文献中,化学实体的指代关系往往复杂且多样。通过提供详细的标注数据和实验配置,该数据集帮助研究者开发出更精确的指代消解模型,提升了化学文本理解的自动化水平。
实际应用
在实际应用中,ChEMU-Ref数据集被广泛用于化学信息提取和知识图谱构建。通过准确识别化学实体及其指代关系,该数据集支持化学专利分析、药物研发中的文献挖掘以及化学知识库的自动化构建,显著提高了化学领域信息处理的效率和准确性。
数据集最近研究
最新研究方向
在化学文本处理领域,ChEMU-Ref数据集为指代消解任务提供了重要的研究基础。近年来,随着自然语言处理技术的快速发展,化学领域的文本分析逐渐成为研究热点。ChEMU-Ref数据集通过提供化学专利文本中的指代关系标注,为模型训练和评估提供了高质量的资源。当前的研究方向主要集中在结合预训练语言模型(如ChELMo)与联合训练策略,以提升指代消解和关系预测的性能。实验结果表明,联合训练方法在核心指代和桥接关系任务中均表现出色,F1分数显著提升。这一进展不仅推动了化学文本自动化的进程,也为药物研发和化学信息提取提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作