midas/ldkp3k
收藏Hugging Face2022-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/ldkp3k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于从长篇英文科学论文中提取和生成关键词的基准测试。数据字段包括文档的唯一标识符、文档的各个部分、每个部分的文本、每个部分的BIO标签、提取的关键词和抽象的关键词。数据分割包括小、中、大训练集以及测试集和验证集。
提供机构:
midas
原始信息汇总
数据集概述
本数据集用于评估从长篇英文科学论文中提取和生成关键词的技术。数据集包含多种规模,以适应不同规模的训练需求。
数据集结构
数据字段
- id: 文档的唯一标识符。
- sections: 文档中所有部分的列表。
- sec_text: 每个部分中单词的列表,以空格分隔。
- sec_bio_tags: 每个部分中单词的BIO标签列表,以空格分隔。
- extractive_keyphrases: 文档中现有的关键词列表。
- abstractive_keyphrase: 文档中不存在的关键词列表。
数据分割
| 分割 | 数据点数量 |
|---|---|
| Train-Small | 20,000 |
| Train-Medium | 50,000 |
| Train-Large | 90,019 |
| Test | 3413 |
| Validation | 3339 |
使用方法
数据集可以通过以下方式加载:
- Small Dataset:
load_dataset("midas/ldkp3k", "small") - Medium Dataset:
load_dataset("midas/ldkp3k", "medium") - Large Dataset:
load_dataset("midas/ldkp3k", "large")
引用信息
若在研究中使用此数据集,请引用以下文献:
- Mahata, Debanjan, et al. "LDKP - A Dataset for Identifying Keyphrases from Long Scientific Documents."
- Mahata, Debanjan, et al. "LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents."
- Lo, Kyle, et al. "S2ORC: The semantic scholar open research corpus."
- {c{C}}ano, Erion, and Bojar, Ond{v{r}}ej. "Keyphrase generation: A multi-aspect survey."
- Meng, Rui, et al. "Deep keyphrase generation."
搜集汇总
数据集介绍

构建方式
在科学文献信息抽取领域,LDKP3K数据集为长文档关键短语提取与生成任务提供了基准资源。该数据集源自S2ORC开放研究语料库,通过系统化流程构建而成。研究者从海量英文科学论文中筛选出符合长度标准的文档,并依据章节结构进行组织,包括标题、摘要及正文各部分。每个文档均经过细致的标注处理,不仅识别出文中实际存在的关键短语,还归纳了未在文中显式出现但语义相关的抽象关键短语,同时为每个词语标注了BIO序列标签以指示关键短语的边界。
特点
LDKP3K数据集的核心特点在于其针对长文档设计的结构与双重关键短语标注体系。数据集严格遵循科学论文的固有组织形式,将文档划分为标题、摘要及多个正文章节,并保留了完整的词汇序列与章节对应关系。其标注体系同时涵盖抽取式与生成式关键短语,前者直接来源于文本片段,后者则需通过语义理解归纳得出,这为评估不同关键短语识别与生成模型提供了全面框架。此外,数据集提供了三种不同规模的训练子集,便于研究者在不同数据条件下进行实验与比较。
使用方法
为便于研究者使用,该数据集已集成于Hugging Face Datasets库。用户可通过指定数据集名称与规模参数(如‘small’、‘medium’或‘large’)直接加载。加载后的数据对象包含训练、验证与测试划分,每个数据样本均以字典形式呈现,囊括文档标识符、章节列表、分词文本、BIO标签序列以及两类关键短语列表。数据集中章节顺序可能未按常规阅读顺序排列,因此附带了辅助函数以调整章节序列,确保标题与摘要优先,从而更贴合实际处理流程。使用者可便捷地访问各字段,并直接将其用于模型训练、评估或分析任务。
背景与挑战
背景概述
在自然语言处理领域,关键短语提取与生成技术对于学术文献的索引、摘要和检索具有重要价值。LDKP3K数据集由Mahata等人于2022年创建,依托于S2ORC开放研究语料库,旨在为长文档英文科学论文的关键短语识别提供基准测试平台。该数据集由多个研究机构合作构建,核心研究问题聚焦于从复杂的长篇科学文档中准确识别并生成关键短语,以推动信息检索与知识发现技术的发展。其大规模、多层次的标注结构为深度学习模型在关键短语任务上的性能评估提供了坚实基础,显著提升了该领域研究的可复现性与可比性。
当前挑战
LDKP3K数据集致力于解决长文档关键短语提取与生成中的核心挑战,包括处理文档长度带来的语义分散性、区分显式关键短语与隐式抽象关键短语的复杂性,以及跨学科术语的准确识别。在构建过程中,面临的主要挑战涉及从原始科学论文中自动化提取并标注高质量关键短语的困难,确保不同章节(如标题、摘要、正文)的结构化表示的一致性,以及处理大规模语料时标注成本与准确性的平衡。这些挑战共同塑造了数据集的设计,使其成为评估模型在真实场景下鲁棒性与泛化能力的重要工具。
常用场景
经典使用场景
在自然语言处理领域,长文档关键短语提取与生成任务面临数据稀缺的挑战。LDKP3K数据集以其大规模、结构化的英文科学论文语料,为研究者提供了评估关键短语识别模型的基准平台。该数据集通过划分标题、摘要与正文章节,并标注抽取式与生成式关键短语,使得模型能够在真实学术文本中学习短语的分布规律与语义关联,进而推动关键短语自动标注技术的发展。
解决学术问题
LDKP3K数据集针对长文档关键短语提取与生成中的若干核心学术问题提供了解决方案。它通过精细的章节结构与BIO标注体系,解决了长文档中关键短语定位模糊、上下文依赖复杂的难题。数据集的构建促进了抽取式与生成式方法的融合研究,为评估模型在真实场景下的泛化能力与鲁棒性设立了新标准,从而深化了对文档语义压缩与知识表示的理解。
衍生相关工作
围绕LDKP3K数据集,学术界衍生了一系列经典研究工作。例如,基于深度学习的端到端关键短语生成模型利用该数据集的章节化标注,探索了注意力机制与序列到序列架构在长文档上的适应性改进。同时,结合预训练语言模型的迁移学习方法,如BERT与GPT系列,也在该数据集上验证了其在关键短语抽取与生成任务中的有效性,推动了领域内模型架构与训练策略的创新。
以上内容由遇见数据集搜集并总结生成



