Dataset Mentions Detection Dataset (DMDD)
收藏arXiv2023-05-20 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/datasets/panhuitong/dmdd-corpus
下载链接
链接失效反馈官方服务:
资源简介:
DMDD数据集是由天普大学和伊利诺伊大学芝加哥分校的研究人员创建的,旨在通过大规模数据支持科学文献中数据集提及的自动检测。该数据集包含超过31,000篇科学文章,自动标注了超过449,000个数据集提及,以及一个由450篇文章组成的手动标注评估集。DMDD数据集的创建过程采用了远距离监督方法,通过从Papers with Code网站获取数据集提及并与论文中的提及进行匹配来生成标注。此外,每个数据集提及都添加了实体链接标注,以便于链接到定义网站。DMDD数据集的应用领域包括知识管理和科学发现,特别是在提高科学数据的可访问性和可用性方面。
The DMDD dataset was developed by researchers from Temple University and the University of Illinois Chicago, with the goal of supporting automatic detection of dataset mentions in scientific literature using large-scale data. This dataset contains over 31,000 scientific articles, featuring more than 449,000 automatically annotated dataset mentions, alongside a manually annotated evaluation set consisting of 450 articles. The construction of the DMDD dataset employed distant supervision, wherein annotations were generated by retrieving dataset mentions from the Papers with Code website and matching them with their corresponding mentions in the included papers. Furthermore, entity linking annotations are added to each dataset mention to facilitate linking to their definition websites. Application domains of the DMDD dataset include knowledge management and scientific discovery, particularly for improving the accessibility and usability of scientific data.
提供机构:
天普大学, 费城, 宾夕法尼亚州, 美国 †伊利诺伊大学芝加哥分校, 芝加哥, 伊利诺伊州, 美国
创建时间:
2023-05-20
搜集汇总
数据集介绍

构建方式
在科学文献信息抽取领域,构建大规模标注数据集面临标注成本高昂的挑战。DMDD数据集采用远监督方法,巧妙整合S2ORC全文语料库与Papers with Code平台的文档级元数据,通过自动化匹配与正则表达式规则,在31,219篇学术文献中标注了超过449,000个数据集提及。该方法首先依据平台提供的实体名称构建词典与正则表达式模式,随后在论文全文中进行近似匹配,生成文本跨度级别的弱标注,同时为每个提及关联了指向知识库的实体链接信息,有效平衡了标注规模与构建效率。
特点
DMDD作为当前公开规模最大的数据集提及检测语料库,其核心特点体现在规模与多样性上。该数据集包含超过44.9万次提及,覆盖10,807个独特提及形式与6,675个实体,远超同类资源。其标注不仅涵盖传统的命名实体识别所需的文本跨度,更创新性地集成了实体链接注释,每个提及均可关联至Papers with Code知识库的对应条目。此外,数据集中数据集名称的表述形式极为丰富,包含长短语、大小写变体、数字与标点组合等多种形态,为模型应对真实文献中的复杂表述提供了充分的训练样本。
使用方法
该数据集主要服务于数据集提及检测与实体链接两项核心任务。研究者可将DMDD的弱标注主语料库用于模型预训练或大规模训练,以学习数据集提及的通用模式与上下文特征。其附带的人工精标评估集则适用于模型性能的可靠评测与微调。具体使用时,数据以文本跨度及对应的BIO标注格式提供,支持句子级、章节级乃至文档级等多种粒度的模型输入设计。基于此,可训练序列标注模型(如BERT、SciBERT)进行提及检测,并利用其内置的实体链接信息,进一步开发端到端的提及识别与链接联合模型。
背景与挑战
背景概述
随着科学文献数量的急剧增长,从学术出版物中自动提取科学实体成为知识管理与科学发现领域的关键任务。数据集提及检测数据集(DMDD)由天普大学与伊利诺伊大学芝加哥分校的研究团队于2023年创建,旨在解决科学文献中数据集名称识别这一核心问题。该数据集包含31,219篇科学论文,标注了超过449,000个数据集提及,通过弱监督标注与人工评估集相结合,为数据集提及检测与链接任务提供了大规模、多样化的语料资源。DMDD的构建显著推动了科学信息抽取领域的发展,为研究者识别科研机会与提升数据可访问性奠定了坚实基础。
当前挑战
数据集提及检测任务面临多重挑战:在领域问题层面,科学文献中的数据集名称具有高度复杂性与多样性,跨学科术语差异显著,且常与任务或方法实体存在命名歧义,例如'SGD'既可指代随机梯度下降方法,也可表示模式引导对话数据集。构建过程中,依赖远监督标注导致标注噪声,如部分数据集子版本或罕见变体未被完整覆盖;同时,数据预处理需平衡标注召回率与精确度,避免因上下文缺失或实体歧义引入误报。此外,实体链接任务需应对数据集名称缩写、拼写变异及知识库覆盖不足等问题,这些因素共同制约了模型性能的进一步提升。
常用场景
经典使用场景
在科学文献信息抽取领域,数据集提及检测(Dataset Mentions Detection)是识别和提取学术论文中提及的数据集名称的关键任务。DMDD作为目前规模最大的公开语料库,其经典使用场景在于为自然语言处理模型提供训练和评估基准,特别是在处理跨学科、命名多样且上下文复杂的科学文本时。研究者利用该数据集构建基线模型,如基于BERT或SciBERT的命名实体识别系统,以自动化地从海量文献中精准定位数据集实体,从而支撑大规模科学知识图谱的构建与更新。
实际应用
在实际应用中,DMDD支撑了学术搜索引擎和知识管理系统的智能化升级。例如,在Papers with Code等平台中,基于该数据集训练的模型能够自动识别论文中使用的数据集,并链接至相应的代码仓库和元数据页面,从而增强科学数据的可发现性和复用性。此外,图书馆与学术机构利用此类技术构建领域特定的文献索引,帮助研究人员快速定位相关实验数据,加速科学发现进程,并促进开放科学实践中的数据共享与协作。
衍生相关工作
DMDD的发布催生了多项经典研究工作,主要集中在提升数据集提及检测与链接的精度和鲁棒性。例如,研究者基于该数据集开发了多任务学习框架,将提及检测与实体链接、关系抽取联合建模;同时,针对长文本输入和零样本实体识别挑战,出现了基于Longformer等长序列模型的改进方法。此外,该数据集还激发了对于弱监督标注噪声处理、上下文增强检索以及跨领域泛化等方向的深入探索,推动了科学信息抽取技术的整体进展。
以上内容由遇见数据集搜集并总结生成



