NLM_500.zip, fao780.tar.gz, fao30.tar.gz, citeulike180.tar.gz, SemEval2010-Maui.zip, keyphrextr.tar.gz, wiki20.tar.gz

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/zelandiya/keyword-extraction-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于开发、评估和测试关键词提取算法的数据集，包括PubMed文档、FAO出版物、CiteULike出版物、SemEval-2010关键短语提取轨道数据等。

A dataset designed for the development, evaluation, and testing of keyword extraction algorithms, encompassing PubMed documents, FAO publications, CiteULike publications, and data from the SemEval-2010 keyphrase extraction track.

创建时间：

2015-05-13

原始信息汇总

数据集概述

使用受控词汇或词典的关键词提取数据集

NLM_500.zip：包含500篇PubMed文档，附带MeSH术语。
fao780.tar.gz：包含780篇FAO出版物，附带Agrovoc术语。
fao30.tar.gz：包含30篇FAO出版物，每篇由6位专业FAO索引员标注。

自由文本关键词提取数据集（无需词汇）

citeulike180.tar.gz：包含180篇从CiteULike爬取的出版物，关键词由保存这些出版物的不同CiteULike用户分配。
SemEval2010-Maui.zip：SemEval-2010关键词提取任务的数据，采用Maui格式。
keyphrextr.tar.gz：使用SemEval-2010训练数据创建的关键词提取模型，用于Maui GPL演示中未选择词汇的情况。

使用Wikipedia作为受控词汇的关键词提取数据集

wiki20.tar.gz：包含20篇计算机科学论文，每篇论文至少由15个索引团队标注了5篇Wikipedia文章。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式多样，涵盖了从PubMed、FAO出版物到CiteULike和SemEval-2010等不同来源的文档。具体而言，NLM_500.zip包含了500篇PubMed文档及其MeSH术语，fao780.tar.gz则包含了780篇FAO出版物及其Agrovoc术语。此外，fao30.tar.gz提供了30篇由6位专业FAO索引员标注的出版物。对于自由文本关键词提取，citeulike180.tar.gz收集了180篇CiteULike用户的标注关键词，而SemEval2010-Maui.zip则提供了SemEval-2010关键短语提取任务的数据。最后，wiki20.tar.gz包含了20篇计算机科学论文，每篇由15个团队标注了至少5篇维基百科文章。

特点

该数据集的显著特点在于其多样性和专业性。首先，数据集涵盖了多种来源，包括PubMed、FAO出版物、CiteULike和SemEval-2010，确保了数据的广泛性和代表性。其次，部分数据集如fao30.tar.gz和wiki20.tar.gz经过专业人员的多次标注，保证了数据的高质量和一致性。此外，数据集的多样性还体现在其支持不同的关键词提取方法，包括使用受控词汇、自由文本提取以及基于维基百科的词汇控制。

使用方法

该数据集主要用于开发、评估和测试关键词提取算法。用户可以根据不同的需求选择合适的数据集进行实验。例如，NLM_500.zip和fao780.tar.gz适合用于基于受控词汇的关键词提取算法的研究，而citeulike180.tar.gz和SemEval2010-Maui.zip则适用于自由文本关键词提取的算法开发。此外，wiki20.tar.gz可以用于研究基于维基百科词汇控制的关键词提取方法。通过这些数据集，研究者可以进行基准测试，评估不同算法在关键词提取任务中的性能。

背景与挑战

背景概述

关键词提取数据集系列由多个子数据集组成，旨在为开发、评估和测试关键词提取算法提供丰富的资源。这些数据集涵盖了不同领域和应用场景，包括PubMed文档、FAO出版物、CiteULike用户标注的文献、SemEval-2010任务数据以及计算机科学论文等。主要研究人员包括O. Medelyan，其博士论文详细探讨了自动主题索引的人类竞争力。这些数据集的创建时间可追溯至2009年，由新西兰怀卡托大学等机构主导，核心研究问题集中在如何通过算法自动提取与文档内容高度相关的关键词，从而提升信息检索和文本分析的效率。该系列数据集对自然语言处理和信息检索领域产生了深远影响，为相关研究提供了标准化的基准数据。

当前挑战

关键词提取数据集面临的主要挑战包括：1) 领域问题的复杂性，如如何在不同领域和语言环境下准确提取关键词；2) 构建过程中的数据标注一致性问题，特别是在多用户标注和专业索引员参与的情况下；3) 数据集的多样性和规模，如何平衡不同数据集之间的差异以确保算法的泛化能力；4) 使用受控词汇或无词汇提取时的性能差异，以及如何优化算法以适应不同的应用场景。此外，数据集的更新和扩展也是一个持续的挑战，以应对新兴领域和技术的快速发展。

常用场景

经典使用场景

该数据集主要用于开发、评估和测试关键词提取算法。其中，NLM_500.zip、fao780.tar.gz和fao30.tar.gz数据集通过使用受控词汇表或分类词典作为关键词来源，适用于基于词典的关键词提取算法研究。citeulike180.tar.gz和SemEval2010-Maui.zip则提供了自由文本关键词提取的数据，适用于无词典依赖的关键词提取模型。wiki20.tar.gz则利用维基百科作为受控词汇表，适合研究基于维基百科的关键词提取方法。

实际应用

在实际应用中，这些数据集支持了多种关键词提取技术的开发和优化。例如，NLM_500.zip和fao780.tar.gz数据集可用于医学和农业领域的文献自动索引，提高文献检索的效率。citeulike180.tar.gz和SemEval2010-Maui.zip则可应用于学术论文的自动摘要生成和推荐系统，帮助用户快速获取关键信息。wiki20.tar.gz则可用于计算机科学领域的文献分析和知识图谱构建。

衍生相关工作

基于这些数据集，研究者们开发了多种关键词提取模型和算法。例如，keyphrextr.tar.gz模型基于SemEval2010训练数据，展示了如何利用该数据集进行模型训练和评估。此外，Maui GPL demo利用这些数据集展示了关键词提取技术的实际应用。这些数据集还激发了大量关于关键词提取性能基准的研究，如Medelyan的博士论文中所述，推动了关键词提取技术在自动化主题索引方面的进展。

以上内容由遇见数据集搜集并总结生成