five

PcMSP

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PcMSP
下载链接
链接失效反馈
官方服务:
资源简介:
我们展示了从305开放获取科学文章中注释多晶材料合成程序 (PcMSP) 的努力,以构建合成动作图。这是一个用于材料科学信息提取的新数据集,同时包含从实验段落中提取的合成句子,以及实体提及和句子内关系。两步人类注释和注释者之间的协议研究保证了PcMSP语料库的高质量。我们介绍了四种自然语言处理任务: 句子分类,命名实体识别,关系分类以及实体和关系的联合提取。综合实验验证了几种最先进的模型对这些挑战的有效性,同时留下了很大的改进空间。我们还进行了错误分析,并指出了一些需要进一步调查的独特挑战。我们将向研究界发布注释方案,语料库和代码,以减轻该领域中标记数据的稀缺性。

We present our effort in annotating Polycrystalline Material Synthesis Procedures (PcMSP) from 305 open-access scientific articles to build synthesis action graphs. This is a novel dataset for materials science information extraction, which contains synthesis sentences extracted from experimental paragraphs, as well as entity mentions and intra-sentence relationships. Two-stage human annotation and inter-annotator agreement studies ensure the high quality of the PcMSP corpus. We introduce four natural language processing tasks: sentence classification, named entity recognition (NER), relation classification, and joint extraction of entities and relations. Comprehensive experiments verify the effectiveness of several state-of-the-art models on these tasks, while leaving significant room for improvement. We also conduct error analysis and point out several unique challenges that require further investigation. We will release the annotation scheme, corpus, and code to the research community to alleviate the scarcity of labeled data in this field.
提供机构:
OpenDataLab
创建时间:
2022-11-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PcMSP是一个专注于材料科学信息提取的数据集,包含305篇科学文章中的多晶材料合成程序注释,支持四种NLP任务。该数据集由加州大学圣巴巴拉分校于2022年发布,旨在解决材料科学领域标记数据稀缺的问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作