Keyword-Extraction-Datasets

github2023-10-19 更新2024-05-31 收录

下载链接：

https://github.com/SDuari/Keyword-Extraction-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含七个用于自动关键词提取任务的标注数据集。每个数据集包含一个文档（.txt或.abstr）及其对应的黄金标准关键词列表（.key或.uncontr）。这些数据集用于监督和无监督关键词提取的研究。

This repository contains seven annotated datasets for the task of automatic keyword extraction. Each dataset consists of a document with file extensions .txt or .abstr and its corresponding gold-standard keyword list with file extensions .key or .uncontr. These datasets are utilized for research on supervised and unsupervised keyword extraction.

创建时间：

2018-09-24

原始信息汇总

关键词提取数据集

本仓库包含七个用于自动关键词提取任务的标注数据集。每个数据集包含一个文档（.txt 或 .abstr）及其对应的黄金标准关键词列表（.key 或 .uncontr）。这些数据集用于我们的监督和非监督关键词提取研究。

数据集详情和收集统计

| 数据集 | |D| | Lavg | Navg | Kavg | KPavg| 描述 | | :--- | :---: | :---: | :---: | :---: | :---: | :--- | | Hulth2003 | 1500 | 129 | 23 | 10 | 90.07 | Inspec 数据集的摘要 | | WWW | 1248 | 174 | 9 | 5 | 64.97 | KDD 会议发表的 CS 文章摘要 | | KDD | 704 | 204 | 8 | 4 | 68.12 | WWW 会议发表的 CS 文章摘要 | | Marujo2012 | 450 | 427 | 69 | 48 | 99.31 | 在线新闻文章 | | Krapivin2009 | 2304 | 7961 | 11 | 5 | 96.91 | ACM 的完整科学文章 | | SemEval2010 | 244 | 8085 | 34 | 16 | 95.89 | ACM 的完整科学文章，为 SemEval2010 任务 5 创建 | | NLM500 | 500 | 4854 | 27 | 14 | 71.35 | PubMed 数据库的完整论文 |

|D|: 文档数量
Lavg: 平均文档长度（以单词计）
Navg: 每个文档平均分配的黄金标准关键词（单字）
Kavg: 每个文档平均分配的黄金标准关键词短语（n-gram）
KPavg: 关键词短语在文本中的平均百分比

引用

Hulth2003

tex @inproceedings{hulth2003improved, title = "Improved Automatic Keyword Extraction given more Linguistic Knowledge", author = "Hulth, Anette", booktitle = "Proceedings of the 2003 Conference on EMNLP", pages = "216--223", year = "2003", organization = "ACL" }

Krapivin2009

tex @article{krapivin2009large, title = "Large Dataset for Keyphrases Extraction", author = "Krapivin, Mikalai and Autaeu, Aliaksandr and Marchese, Maurizio", journal = "Technical Report DISI-09-055", year = "2009", publisher = "University of Trento" }

NLM500

tex @inproceedings{aronson2000nlm, title = "The NLM Indexing Initiative", author = "Aronson and others", booktitle = "Proceedings of the AMIA Symposium", pages = "17", year = "2000", organization = "American Medical Informatics Association" }

SemEval2010

tex @inproceedings{kim2010semeval, title = "Semeval-2010 Task 5: Automatic Keyphrase Extraction from Scientific Articles", author = "Kim, Su Nam and Medelyan, Olena and Kan, Min-Yen and Baldwin, Timothy", booktitle = "Proceedings of the 5th International Workshop on Semantic Evaluation", pages = "21--26", year = "2010", organization = "Association for Computational Linguistics" }

Marujo2012

tex @inproceedings{marujo2012supervised, title = "Supervised Topical Key Phrase Extraction of News Stories using Crowdsourcing, Light Filtering and Co-reference Normalization", author = "Marujo, Lu{\i}s and Gershman, Anatole and Carbonell, Jaime and Frederking, Robert and Neto, Joa{`I}ƒo P", booktitle = "Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012)", year = "2012" }

WWW 和 KDD

tex @inproceedings{gollapalli2014extracting, title = "Extracting keyphrases from research papers using citation networks", author = "Gollapalli, Sujatha Das and Caragea, Cornelia", booktitle = "Twenty-Eighth AAAI Conference on Artificial Intelligence", year = "2014" }

搜集汇总

数据集介绍

构建方式

Keyword-Extraction-Datasets 数据集的构建基于多个公开的文献资源，涵盖了从科学摘要到新闻文章等多种文本类型。每个数据集均包含文档及其对应的关键词列表，这些关键词列表由专家或通过特定算法标注生成。数据集的来源包括 Inspec 数据库、ACM 会议论文、PubMed 文献等，确保了数据的多样性和权威性。通过筛选和整理，数据集仅保留了包含至少两个句子和一个关键词的文档，以保证数据的质量和实用性。

特点

该数据集的特点在于其广泛覆盖了不同领域的文本类型，包括科学摘要、会议论文、新闻文章等。每个数据集均提供了详细的统计信息，如文档数量、平均文档长度、平均关键词数量等，便于研究者快速了解数据集的规模和结构。此外，数据集中的关键词标注经过严格筛选，确保了标注的准确性和一致性。数据集还特别标注了关键词在文本中的出现频率，为关键词提取任务提供了丰富的上下文信息。

使用方法

Keyword-Extraction-Datasets 数据集适用于自动关键词提取任务的研究，尤其适合用于监督学习和无监督学习的算法开发与评估。研究者可以通过加载数据集中的文档和关键词列表，训练和测试关键词提取模型。数据集中的统计信息可用于分析模型的性能，如关键词提取的准确率和召回率。此外，数据集还可用于跨领域的关键词提取研究，通过比较不同领域的关键词分布，探索领域间的差异性和共性。

背景与挑战

背景概述

Keyword-Extraction-Datasets 是一个专门为自动关键词提取任务设计的标注数据集集合，涵盖了多个领域的文档及其对应的关键词列表。该数据集由多个子集组成，包括 Hulth2003、WWW、KDD、Marujo2012、Krapivin2009、SemEval2010 和 NLM500，分别来源于 Inspec 数据库、计算机科学会议论文、新闻文章以及 PubMed 文献。这些数据集最初由不同研究团队创建，主要用于监督和无监督的关键词提取研究。该数据集的创建时间跨度从 2003 年到 2012 年，涉及的研究人员包括 Anette Hulth、Mikalai Krapivin、Su Nam Kim 等。这些数据集在自然语言处理和信息检索领域具有重要影响力，为关键词提取算法的评估和优化提供了丰富的实验基础。

当前挑战

Keyword-Extraction-Datasets 所解决的核心领域问题是自动关键词提取，其挑战在于如何从不同领域和类型的文档中准确提取出具有代表性的关键词。由于文档的多样性和复杂性，关键词提取任务面临语义理解、上下文关联以及多词短语识别等难题。此外，数据集的构建过程也面临诸多挑战，例如文档的标准化处理、关键词标注的一致性以及数据来源的多样性。不同子集的数据格式和标注标准存在差异，这对数据集的整合和使用提出了更高的要求。同时，部分数据集的原始来源链接已失效，进一步增加了数据获取和复现的难度。这些挑战不仅影响了数据集的使用效率，也对关键词提取算法的泛化能力提出了更高的要求。

常用场景

经典使用场景

Keyword-Extraction-Datasets 数据集在自然语言处理领域中被广泛用于自动关键词提取任务。该数据集包含了多个领域的文档及其对应的关键词列表，涵盖了从科学论文摘要到新闻文章等多种文本类型。研究人员通常利用这些数据集来训练和评估监督学习和无监督学习模型，以提升关键词提取的准确性和效率。

衍生相关工作

该数据集衍生了许多经典的研究工作，如 sCAKE 和 Complex Network based Supervised Keyword Extractor。这些工作基于该数据集提出了新的关键词提取算法，显著提升了关键词提取的性能。此外，该数据集还被用于多个国际评测任务，如 SemEval2010 Task 5，推动了自动关键词提取领域的研究进展。

数据集最近研究