five

POLYIE

收藏
arXiv2023-11-14 更新2024-06-21 收录
下载链接:
https://github.com/jerry3027/PolyIE
下载链接
链接失效反馈
官方服务:
资源简介:
POLYIE数据集是由乔治亚理工学院的研究团队从146篇完整的聚合物科学文献中精心提取和标注的,旨在自动提取科学文献中的信息。该数据集包含41635个实体提及和4443个关系,涵盖了聚合物太阳能电池、开环聚合、聚合物膜和锂离子电池四个应用领域。数据集的创建过程涉及领域专家的标注,确保了数据的高质量和准确性。POLYIE数据集的应用领域主要集中在聚合物材料的科学信息提取,旨在解决从大量非结构化文献数据中自动提取结构化信息的问题,这对于理解和发现新材料具有重要价值。

The POLYIE dataset was meticulously curated and annotated by a research team at the Georgia Institute of Technology from 146 full-length polymer science literatures, with the objective of automated information extraction from scientific documents. This dataset contains 41,635 entity mentions and 4,443 relationships, covering four application domains: polymer solar cells, ring-opening polymerization, polymer films, and lithium-ion batteries. The dataset's development involved annotation by domain experts, ensuring its high quality and accuracy. The POLYIE dataset is primarily focused on scientific information extraction for polymeric materials, aiming to address the challenge of automatically extracting structured information from large volumes of unstructured literature data, which holds significant value for understanding and discovering new materials.
提供机构:
乔治亚理工学院
创建时间:
2023-11-14
搜集汇总
数据集介绍
main_image_url
构建方式
POLYIE数据集的构建旨在填补现有科学信息抽取(SciIE)领域在聚合物材料方面的空白。该数据集由146篇完整的聚合物科学文献组成,这些文献由领域专家进行了标注,标注内容包括不同的命名实体(即材料、属性、值、条件)以及它们之间的N-ary关系。数据集的构建过程包括数据预处理和标注,数据预处理涉及从PDF格式解析文本,并使用正则表达式修正解析错误。标注过程则通过Doccano平台进行,标注了实体和关系的类别。为了评估模型性能,数据集被分为训练集、验证集和测试集,并使用F1分数、准确率和召回率等指标进行评估。
特点
POLYIE数据集的特点在于其多样性和挑战性。首先,实体具有多样化的词汇格式,包括IUPAC名称、缩写、商品名、俗称和样本标签等,这为命名实体识别带来了挑战。其次,关系具有可变长度和跨句N-ary关系,这使得关系抽取任务变得更加复杂。数据集覆盖了聚合物太阳能电池、开环聚合、聚合物膜和锂离子电池等四个不同的应用领域,这为模型的泛化能力提供了支持。此外,POLYIE是首个针对聚合物材料的SciIE基准数据集,为该领域的研究提供了重要的资源。
使用方法
POLYIE数据集的使用方法包括命名实体识别和关系抽取。命名实体识别任务旨在识别和分类文本中的实体,如材料名称、属性名称、属性值和条件等。关系抽取任务旨在识别和提取实体之间的N-ary关系,如<材料,属性,值,条件>等。数据集被分为训练集、验证集和测试集,研究人员可以使用这些数据集来训练和评估他们的模型。在评估模型性能时,可以使用准确率、召回率和F1分数等指标。此外,研究人员还可以通过分析错误案例和模型局限性来改进他们的模型。
背景与挑战
背景概述
POLYIE 数据集由来自佐治亚理工学院计算学院和材料科学与工程学院的研究人员创建,旨在填补聚合物材料科学文献信息提取(SciIE)领域的空白。该数据集由146篇完整的聚合物科学文章组成,由领域专家进行标注,包含不同的命名实体(如材料、属性、值、条件)及其N-ary关系。POLYIE数据集的创建时间为2023年11月,是目前为止第一个针对聚合物材料的SciIE基准数据集,对于推动该领域的研究具有重要意义。
当前挑战
POLYIE数据集面临着几个独特的挑战。首先,聚合物相关实体的命名方式多样,包括IUPAC命名法、缩写、商品名、常用名和样品标签等,这使得命名实体识别(NER)任务变得复杂。其次,聚合物文献中描述的关系通常是可变长度的N-ary关系,这意味着关系中的实体数量可能不同,且实体可能在多个句子中跨越。这些挑战对现有的NER和关系抽取(RE)模型提出了更高的要求。
常用场景
经典使用场景
POLYIE数据集主要用于从聚合物材料科学文献中自动提取信息,这包括识别和分类材料名称、属性名称、属性值和条件等命名实体,以及构建实体间的N-ary关系。通过这种方式,POLYIE为聚合物材料信息提取提供了一个全面的基准,有助于研究人员开发和应用自然语言处理技术来理解和分析聚合物材料的特性、合成过程和应用。
实际应用
POLYIE数据集的实际应用场景广泛,包括但不限于材料科学研究和开发、材料数据库构建、材料性质和合成过程分析等。通过对聚合物材料文献的自动信息提取,研究人员可以更快速、更准确地获取材料信息,加速新材料的设计和开发过程,提高材料科学研究的效率和质量。
衍生相关工作
POLYIE数据集的发布,促进了材料科学领域自然语言处理技术的进一步发展。基于POLYIE数据集,研究人员可以开发和测试各种信息提取模型,探索不同模型的性能和局限性,为构建更准确、更高效的信息提取系统提供参考。此外,POLYIE还可以作为其他材料科学信息提取数据集的参考,推动SciIE技术在材料科学领域的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作