SciDMT

Name: SciDMT
Creator: 天普大学
Published: 2024-06-21 06:03:21
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://paperswithcode.com/

下载链接

链接失效反馈

官方服务：

资源简介：

SciDMT是一个大规模的科学提及检测语料库，由天普大学创建，旨在通过标注科学文献中的数据集、方法和任务提及，推动科学信息提取技术的发展。该数据集包含48,049篇科学文章，总计超过180万条弱标注提及，涵盖了广泛的科学领域和实体类型。创建过程中采用了远距离监督方法，通过与Papers with Code网站的文档级标注相结合，实现了高效的数据标注。SciDMT特别适用于科学论文索引、信息检索增强和科学知识的可访问性提升，为科学信息提取领域的模型开发和评估提供了强大的基准。

SciDMT is a large-scale scientific mention detection corpus developed by Temple University. It is designed to promote the advancement of scientific information extraction technologies by annotating mentions of datasets, methods and tasks in scientific literature. This corpus comprises 48,049 scientific articles, with a total of over 1.8 million weakly labeled mentions, spanning a broad spectrum of scientific disciplines and entity types. During its construction, distant supervision was employed, which was integrated with document-level annotations from the Papers with Code website to enable efficient data annotation. SciDMT is particularly well-suited for applications such as scientific paper indexing, information retrieval augmentation and enhancing the accessibility of scientific knowledge, serving as a robust benchmark for model development and evaluation in the domain of scientific information extraction.

提供机构：

天普大学

创建时间：

2024-06-21

搜集汇总

数据集介绍

构建方式

SciDMT数据集的构建方式是通过远程监督的方法，利用Papers with Code网站上的文档级注释。主要语料库包含48,000篇科学文章，每篇文章都带有超过1.8百万个弱标注的提及注释，以文本跨度格式呈现。此外，还包含一个评估集，由100篇人工标注的科学文章组成，用于评估目的。SciDMT是迄今为止最大的科学实体提及检测语料库，其规模和多样性对于开发和完善模型以执行诸如索引科学论文、增强信息检索以及提高科学知识可访问性等任务至关重要。

特点

SciDMT数据集的特点在于其规模之大，以及涵盖数据集、方法和任务三个方面的综合实体注释。数据集的每个提及都与PwC网站链接，并通过本体链接进一步丰富了数据集的实用性。SciDMT特别适用于索引科学论文、促进高级信息检索以及使科学知识更加易于获取。此外，SciDMT还具有强大的实体链接功能，每个提及都可以链接到PwC网站，并引入了本体链接，进一步丰富了数据集的实用性。

使用方法

SciDMT数据集的使用方法包括将其作为科学实体提及检测（SEMD）的基准，以开发和评估先进的科学信息提取模型。该数据集可用于训练和测试各种自然语言处理模型，包括条件随机场（CRF）、双向长短时记忆网络（BiLSTM）、BERT、SciBERT和GPT-3.5等。实验结果表明，SciDMT在训练SEMD模型方面比现有语料库更有效，为SEMD任务提供了宝贵的性能基线和见解。

背景与挑战

背景概述

在科学信息提取领域，实体提及检测（SEMD）是命名实体识别（NER）问题的一个实例，它通常是一个逐个标记的任务。尽管由于机器学习的创新，NER已经取得了显著的进展，但SEMD仍然处于探索的早期阶段。科学文献中使用的复杂和多样化的术语，以及大量注释语料库的稀缺性，加剧了SEMD的复杂性。现有的语料库，如RCC1、SciERC、SciREX和TDMSci，对SEMD算法评估至关重要，但它们受限于它们的体积和实体链接能力。这些局限性源于手动整理过程，虽然它保证了质量，但资源密集且扩展性差。在这篇论文中，我们提出了SciDMT，这是一个包含数据集、方法和任务实体注释的语料库。SciDMT包含弱标签实例用于模型训练和手动注释实例用于评估，为SEMD的进步提供了一个全面的资源。SciDMT的创建得益于远程监督，利用了来自Papers with Code网站上的文档级注释。这种方法产生了48,049篇机器学习文章的主要语料库，这些文章用文本跨度注释了数据集、方法和任务的提及。尽管远程监督没有达到手动注释的精度，但它产生的大量数据对于训练具有竞争力的模型至关重要。SciDMT的规模和多样性对于开发和完善索引科学论文、增强信息检索和改进科学知识可访问性的模型任务至关重要。

当前挑战

SciDMT数据集面临的挑战包括实体提及检测的复杂性，科学文献中使用的复杂和多样化的术语，以及大量注释语料库的稀缺性。现有的语料库，如RCC1、SciERC、SciREX和TDMSci，对SEMD算法评估至关重要，但它们受限于它们的体积和实体链接能力。此外，SciDMT的创建得益于远程监督，利用了来自Papers with Code网站上的文档级注释。这种方法产生了48,049篇机器学习文章的主要语料库，这些文章用文本跨度注释了数据集、方法和任务的提及。尽管远程监督没有达到手动注释的精度，但它产生的大量数据对于训练具有竞争力的模型至关重要。SciDMT的规模和多样性对于开发和完善索引科学论文、增强信息检索和改进科学知识可访问性的模型任务至关重要。然而，SciDMT也面临一些挑战，例如实体链接能力的限制，以及从PwC网站继承的潜在偏差。此外，SciDMT没有包括对模糊情况的注释，其中不同的实体具有相同的名称或共享首字母缩略词，也没有考虑随着时间的推移命名约定的变化。

常用场景

经典使用场景

SciDMT 数据集是一个大规模的语料库，旨在帮助研究人员进行科学提及检测。该数据集包含标注的科学文档，涉及数据集、方法和任务等方面。它由两个部分组成：SciDMT 主语料库，包括 48,000 篇科学文章，超过 1.8 百万个弱标注提及标注；评估集，包括 100 篇人工标注的科学文章。SciDMT 的规模和多样性对于开发和完善模型，以执行索引科学论文、增强信息检索和改进科学知识的可访问性等任务至关重要。通过使用先进的深度学习架构，如 SciBERT 和 GPT-3.5，SciDMT 数据集的实用性得到了验证。这些实验为科学提及检测的性能基线提供了参考，并突出了该领域尚未解决的问题。SciDMT 作为研究社区的一个强大基准，鼓励开发创新模型，以进一步推动科学信息提取领域的发展。

解决学术问题

SciDMT 数据集解决了科学实体提及检测（SEMD）领域中的多个常见学术研究问题。首先，SciDMT 通过其大规模的语料库和全面的实体链接，为研究人员提供了一个丰富的资源，以训练和评估 SEMD 模型。其次，SciDMT 的弱标注和人工标注实例的结合，为 SEMD 研究提供了一个全面的资源。此外，SciDMT 的文档级标注和实体链接，有助于词义消歧和增强识别准确性。SciDMT 的这些特点使其成为科学信息提取领域的一个重要贡献，并为研究人员提供了一个强大的基准，以推动该领域的发展。

衍生相关工作

SciDMT 数据集衍生了多个相关的经典工作。首先，SciDMT 的构建过程和实验结果为科学实体提及检测（SEMD）领域的研究提供了重要的参考。其次，SciDMT 的弱标注和人工标注实例的结合，为 SEMD 研究提供了一个全面的资源。此外，SciDMT 的文档级标注和实体链接，有助于词义消歧和增强识别准确性。SciDMT 的这些特点使其成为科学信息提取领域的一个重要贡献，并为研究人员提供了一个强大的基准，以推动该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集