KeywordExtractor-Datasets

github2020-03-03 更新2024-05-31 收录

下载链接：

https://github.com/sunyilgdx/KeywordExtractor-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含自动关键词提取的标注数据集。

This repository contains an annotated dataset for automatic keyword extraction.

创建时间：

2019-05-16

原始信息汇总

数据集概述

本数据集包含20个自动关键词提取的标注数据集，涵盖多种语言、文档类型和领域。以下是各数据集的详细信息：

数据集名称	语言	文档类型	领域	文档数量	黄金关键词数量（每文档）	每文档字数	缺失黄金关键词比例
110-PT-BN-KP	PT	新闻	杂项	110	2610 (23.73)	304.00	2.5%
500N-KPCrowd-v1.1	EN	新闻	杂项	500	24459 (48.92)	408.33	13.5%
Inspec	EN	摘要	计算机科学	2000	29230 (14.62)	128.20	37.7%
Krapivin2009	EN	论文	计算机科学	2304	14599 (6.34)	8040.74	15.3%
KP20K	EN	摘要	计算机科学	570809	3017637 (5.28)	xxxxxxx	44.3%
Nguyen2007	EN	论文	计算机科学	209	2369 (11.33)	5201.09	17.8%
PubMed	EN	论文	计算机科学	500	7620 (15.24)	3992.78	60.2%
Schutz2008	EN	论文	计算机科学	1231	55013 (44.69)	3901.31	13.6%
SemEval2010	EN	论文	计算机科学	243	4002 (16.47)	8332.34	11.3%
SemEval2017	EN	段落	杂项	493	8969 (18.19)	178.22	0.0%
WikiNews	FR	新闻	杂项	100	1177 (11.77)	293.52	5.0%
cacic	ES	论文	计算机科学	888	4282 (4.82)	3985.84	2.2%
citeulike180	EN	论文	杂项	183	3370 (18.42)	4796.08	32.2%
fao30	EN	论文	农业	30	997 (33.23)	4777.70	41.7%
fao780	EN	论文	农业	779	6990 (8.97)	4971.79	36.1%
kdd	EN	论文	计算机科学	755	3831 (5.07)	75.97	53.2%
pak2018	PL	摘要	杂项	50	232 (4.64)	97.36	64.7%
persaD	FA	XXXXXXXX	XXXXX	553111	2041626 (3.69)	xxxxx	30.5%
theses100	EN	硕士/博士论文	杂项	100	767 (7.67)	4728.86	47.6%
wicc	ES	论文	计算机科学	1640	7498 (4.57)	1955.56	2.7%
wiki20	EN	研究报告	计算机科学	20	730 (36.50)	6177.65	51.8%
www	EN	论文	计算机科学	1330	7711 (5.80)	84.08	55.0%

搜集汇总

数据集介绍

构建方式

KeywordExtractor-Datasets 数据集的构建主要依托于对科学文献、新闻报道、学术论文等多种类型的文本进行关键词标注。该数据集包含了不同语言、不同领域的文本，如葡萄牙语新闻、英语学术论文等。构建过程中，部分数据集通过众包方式获取关键词，部分则由专业人士或原作者进行标注，确保了关键词的准确性和多样性。

使用方法

使用KeywordExtractor-Datasets 数据集时，用户可以根据自己的需求选择合适的数据集。下载数据集后，用户可以直接使用标注好的关键词进行模型训练或性能评估。对于包含多个标注者的数据集，用户还可以分析不同标注者之间的共识和差异，以进一步提高关键词提取算法的鲁棒性。

背景与挑战

背景概述

KeywordExtractor-Datasets是一个涵盖多种语言的自动关键短语提取的数据集集合。该数据集由20个子数据集组成，包括葡萄牙语、英语、法语、西班牙语、波斯语等语言，涉及新闻、科技论文、会议论文、硕士和博士论文等多种类型的文档。创建于不同时间，由多个研究机构和个人研究者共同构建，这些数据集为关键短语提取领域的研究提供了丰富的实验资源，推动了相关技术的发展。特别是其中的KP20K数据集，包含了超过57万篇摘要和300万黄金关键词，对领域影响力深远。

当前挑战

在构建KeywordExtractor-Datasets的过程中，研究者们面临了多方面的挑战。首先，不同语言和领域的文档带来了注释的一致性和准确性的挑战。其次，构建过程中需要处理大量的文本数据，对数据标注的质量控制和处理效率提出了挑战。此外，数据集中部分文档的黄金关键词缺失或标注不一致，为后续的数据使用和研究带来了困难。领域问题的挑战包括如何提高关键短语提取的准确率和召回率，以及如何适应不同领域和语言的特点。

常用场景

经典使用场景

KeywordExtractor-Datasets数据集广泛用于自动关键短语提取任务，其经典使用场景包括文本挖掘、信息检索、学术文献分析以及内容摘要等领域。在这些场景中，研究人员可以借助该数据集对不同类型和领域的文档进行关键短语提取，以实现文本的快速理解和信息的高效聚合。

解决学术问题

该数据集解决了学术研究中关键短语提取的一致性和准确性问题，为评估和改进关键短语提取算法提供了标准基准。它帮助研究者克服了人工标注成本高、主观性强的难题，推动了自动文本分析技术的发展。

实际应用

在实际应用中，KeywordExtractor-Datasets被用于构建智能信息检索系统、学术搜索引擎优化、文献管理工具以及内容管理系统等，显著提高了信息处理的自动化水平和效率。

数据集最近研究