LDKP

Name: LDKP
Creator: 印度理工学院德里分校
Published: 2022-04-01 16:24:39
License: 暂无描述

arXiv2022-04-01 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/midas/ldkp3k, https://huggingface.co/datasets/midas/ldkp10k

下载链接

链接失效反馈

官方服务：

资源简介：

LDKP是由印度理工学院德里分校开发的两个大型数据集，旨在从完整的科学文章中识别关键词。数据集包含约10万和130万篇科学文章，每篇文章都附带完整的文本和元数据信息，如出版地点、年份、作者、研究领域和引用情况。数据集通过将KP20K和OAGKx与S2ORC数据集中的文档进行映射而创建，以解决现有数据集在处理长文档时的局限性。LDKP的应用领域包括自然语言处理和信息检索，特别是在需要从长文档中提取关键词的场景中。

LDKP is a pair of large-scale datasets developed by the Indian Institute of Technology Delhi, tailored for keyword identification from full-length scientific articles. The two datasets respectively comprise roughly 100,000 and 1.3 million scientific articles, with each article accompanied by complete text and metadata including publication venue, publication year, authors, research fields, and citation information. The datasets were constructed by aligning documents from the KP20K, OAGKx, and S2ORC datasets, aiming to address the limitations of existing datasets when handling long-form documents. LDKP finds applications in natural language processing and information retrieval, especially in scenarios requiring keyword extraction from long documents.

提供机构：

印度理工学院德里分校

创建时间：

2022-03-29

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，关键短语识别任务长期受限于基于摘要的短文本数据集，难以适应现实世界中长文档的处理需求。LDKP数据集的构建通过整合现有关键短语标注资源与大规模学术全文语料库实现，具体而言，研究人员将KP20K与OAGKx两个已有关键短语数据集与S2ORC学术全文库进行映射匹配。利用论文标题作为唯一标识符，经过严格的去重与清洗流程，剔除了无效的短标题条目，并修正了关键短语中因分隔符导致的解析错误。此外，对全文中的章节名称进行了标准化处理，统一了如引言、方法论等常见章节的命名规范，最终形成了包含约10万篇文档的LDKP3K与约130万篇文档的LDKP10K两个子集，为长文档关键短语研究提供了结构化的数据基础。

特点

LDKP数据集的核心特点在于其专注于长文档关键短语识别，弥补了传统数据集中文档长度不足的缺陷。该数据集中的文档平均句子数量显著提升，LDKP3K与LDKP10K分别达到280.67句与194.76句，远超过以往仅基于摘要的数据集。同时，数据集中关键短语在全文中的出现比例较高，LDKP3K的现有关键短语占比达到76.11%，这为模型学习长距离语义依赖提供了丰富语境。数据集还附带了完善的元数据信息，包括出版年份、作者、研究领域、引用关系等，支持多维度学术分析。此外，数据划分考虑了计算资源的差异性，提供了不同规模的训练子集，增强了其实用性与可访问性。

使用方法

LDKP数据集适用于训练与评估面向长文档的关键短语提取与生成模型。研究人员可通过Huggingface平台直接下载LDKP3K与LDKP10K的子集，数据集已预先划分为训练、验证与测试部分，其中LDKP3K沿用了原始KP20K的数据划分，LDKP10K则采用随机采样生成划分以确保领域分布均衡。在使用时，可依据计算资源选择不同规模的训练数据，从小型子集进行快速实验到大型子集进行深度模型训练。数据集中的全文文本与标准化章节结构可用于设计章节感知的关键短语识别算法，而丰富的元数据则支持融合上下文信息的联合建模研究，例如结合引用网络或研究领域进行关键短语推荐。

背景与挑战

背景概述

在自然语言处理与信息检索领域，关键短语识别作为文本内容极端摘要的核心任务，长期以来依赖以标题和摘要为主的短文本数据集，如KP20k与OAGKx。这些数据集虽推动了关键短语提取与生成算法的发展，却因输入文本长度有限，难以适应现实应用中长文档处理的需求。为此，由Moody's Analytics、IIIT-Delhi等多机构研究人员于2022年联合构建的LDKP数据集应运而生，其通过映射S2ORC大规模学术语料库与现有关键短语标注，首次提供了涵盖约130万篇完整科学文献的长文档关键短语资源。该数据集不仅包含全文文本，还整合了出版年份、作者、引用网络等丰富元数据，旨在突破传统数据集在文档长度与上下文覆盖上的局限，推动关键短语技术向真实场景下的长文档处理迈进，为学术搜索、知识管理等应用奠定数据基础。

当前挑战

LDKP数据集致力于解决长文档关键短语识别这一现实挑战，其核心问题在于如何从多段落、结构复杂的科学文献中准确提取或生成代表性短语，以克服传统方法仅适用于短摘要的缺陷。构建过程中面临多重困难：其一，数据整合需通过标题匹配关联S2ORC全文与KP20k/OAGKx关键短语，但标题重复或过于简略（如单字标题）导致映射歧义，需人工校验以保障数据对应准确性；其二，原始关键短语列表存在解析错误，如分隔符误判使复合短语断裂，或混入非文本信息（如出版年份），需设计规则过滤无效标注；其三，科学文献章节命名差异显著，需统一标准化以支持基于文档结构的算法研究。这些挑战凸显了长文档数据构建在规模扩展与质量保障间的平衡难题。

常用场景

经典使用场景

在自然语言处理领域，关键短语识别作为文本摘要和信息检索的基础任务，长期以来依赖于基于标题和摘要的短文本数据集。LDKP数据集的推出，为研究社区提供了从完整长文档中提取关键短语的基准资源。该数据集最经典的使用场景在于训练和评估关键短语提取与生成模型，特别是在处理科学文献等长篇文档时，能够模拟真实世界中文档长度远超摘要的复杂情况，推动算法从理论探索向实际应用迈进。

解决学术问题

LDKP数据集主要解决了关键短语识别研究中因数据局限而引发的若干学术问题。传统数据集仅包含标题和摘要，导致模型难以处理长文档，且约18%的关键短语出现在摘要之外，限制了算法的泛化能力。通过提供约100K至1.3M篇完整科学论文及其元数据，LDKP使研究者能够开发更鲁棒的模型，以应对文档长度、上下文依赖及摘要不可用等挑战，从而提升关键短语识别在真实场景中的准确性与实用性。

衍生相关工作

LDKP数据集的发布催生了一系列相关研究工作，尤其是在长文档关键短语识别模型的创新方面。研究者基于该数据集开发了新的深度学习方法，如结合元数据（如引用网络、研究领域）的提取模型，以提升关键短语的覆盖率和相关性。同时，它也激发了半监督和无监督学习范式在关键短语任务中的应用，推动了如S2ORC等大规模学术语料库的进一步整合，为信息检索和文本挖掘领域提供了更丰富的实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集