KeywordExtractor-Datasets
收藏github2020-03-03 更新2024-05-31 收录
下载链接:
https://github.com/sunyilgdx/KeywordExtractor-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含自动关键词提取的标注数据集。
This repository contains an annotated dataset for automatic keyword extraction.
创建时间:
2019-05-16
原始信息汇总
数据集概述
本数据集包含20个自动关键词提取的标注数据集,涵盖多种语言、文档类型和领域。以下是各数据集的详细信息:
| 数据集名称 | 语言 | 文档类型 | 领域 | 文档数量 | 黄金关键词数量(每文档) | 每文档字数 | 缺失黄金关键词比例 |
|---|---|---|---|---|---|---|---|
| 110-PT-BN-KP | PT | 新闻 | 杂项 | 110 | 2610 (23.73) | 304.00 | 2.5% |
| 500N-KPCrowd-v1.1 | EN | 新闻 | 杂项 | 500 | 24459 (48.92) | 408.33 | 13.5% |
| Inspec | EN | 摘要 | 计算机科学 | 2000 | 29230 (14.62) | 128.20 | 37.7% |
| Krapivin2009 | EN | 论文 | 计算机科学 | 2304 | 14599 (6.34) | 8040.74 | 15.3% |
| KP20K | EN | 摘要 | 计算机科学 | 570809 | 3017637 (5.28) | xxxxxxx | 44.3% |
| Nguyen2007 | EN | 论文 | 计算机科学 | 209 | 2369 (11.33) | 5201.09 | 17.8% |
| PubMed | EN | 论文 | 计算机科学 | 500 | 7620 (15.24) | 3992.78 | 60.2% |
| Schutz2008 | EN | 论文 | 计算机科学 | 1231 | 55013 (44.69) | 3901.31 | 13.6% |
| SemEval2010 | EN | 论文 | 计算机科学 | 243 | 4002 (16.47) | 8332.34 | 11.3% |
| SemEval2017 | EN | 段落 | 杂项 | 493 | 8969 (18.19) | 178.22 | 0.0% |
| WikiNews | FR | 新闻 | 杂项 | 100 | 1177 (11.77) | 293.52 | 5.0% |
| cacic | ES | 论文 | 计算机科学 | 888 | 4282 (4.82) | 3985.84 | 2.2% |
| citeulike180 | EN | 论文 | 杂项 | 183 | 3370 (18.42) | 4796.08 | 32.2% |
| fao30 | EN | 论文 | 农业 | 30 | 997 (33.23) | 4777.70 | 41.7% |
| fao780 | EN | 论文 | 农业 | 779 | 6990 (8.97) | 4971.79 | 36.1% |
| kdd | EN | 论文 | 计算机科学 | 755 | 3831 (5.07) | 75.97 | 53.2% |
| pak2018 | PL | 摘要 | 杂项 | 50 | 232 (4.64) | 97.36 | 64.7% |
| persaD | FA | XXXXXXXX | XXXXX | 553111 | 2041626 (3.69) | xxxxx | 30.5% |
| theses100 | EN | 硕士/博士论文 | 杂项 | 100 | 767 (7.67) | 4728.86 | 47.6% |
| wicc | ES | 论文 | 计算机科学 | 1640 | 7498 (4.57) | 1955.56 | 2.7% |
| wiki20 | EN | 研究报告 | 计算机科学 | 20 | 730 (36.50) | 6177.65 | 51.8% |
| www | EN | 论文 | 计算机科学 | 1330 | 7711 (5.80) | 84.08 | 55.0% |
搜集汇总
数据集介绍

构建方式
KeywordExtractor-Datasets 数据集的构建主要依托于对科学文献、新闻报道、学术论文等多种类型的文本进行关键词标注。该数据集包含了不同语言、不同领域的文本,如葡萄牙语新闻、英语学术论文等。构建过程中,部分数据集通过众包方式获取关键词,部分则由专业人士或原作者进行标注,确保了关键词的准确性和多样性。
使用方法
使用KeywordExtractor-Datasets 数据集时,用户可以根据自己的需求选择合适的数据集。下载数据集后,用户可以直接使用标注好的关键词进行模型训练或性能评估。对于包含多个标注者的数据集,用户还可以分析不同标注者之间的共识和差异,以进一步提高关键词提取算法的鲁棒性。
背景与挑战
背景概述
KeywordExtractor-Datasets是一个涵盖多种语言的自动关键短语提取的数据集集合。该数据集由20个子数据集组成,包括葡萄牙语、英语、法语、西班牙语、波斯语等语言,涉及新闻、科技论文、会议论文、硕士和博士论文等多种类型的文档。创建于不同时间,由多个研究机构和个人研究者共同构建,这些数据集为关键短语提取领域的研究提供了丰富的实验资源,推动了相关技术的发展。特别是其中的KP20K数据集,包含了超过57万篇摘要和300万黄金关键词,对领域影响力深远。
当前挑战
在构建KeywordExtractor-Datasets的过程中,研究者们面临了多方面的挑战。首先,不同语言和领域的文档带来了注释的一致性和准确性的挑战。其次,构建过程中需要处理大量的文本数据,对数据标注的质量控制和处理效率提出了挑战。此外,数据集中部分文档的黄金关键词缺失或标注不一致,为后续的数据使用和研究带来了困难。领域问题的挑战包括如何提高关键短语提取的准确率和召回率,以及如何适应不同领域和语言的特点。
常用场景
经典使用场景
KeywordExtractor-Datasets数据集广泛用于自动关键短语提取任务,其经典使用场景包括文本挖掘、信息检索、学术文献分析以及内容摘要等领域。在这些场景中,研究人员可以借助该数据集对不同类型和领域的文档进行关键短语提取,以实现文本的快速理解和信息的高效聚合。
解决学术问题
该数据集解决了学术研究中关键短语提取的一致性和准确性问题,为评估和改进关键短语提取算法提供了标准基准。它帮助研究者克服了人工标注成本高、主观性强的难题,推动了自动文本分析技术的发展。
实际应用
在实际应用中,KeywordExtractor-Datasets被用于构建智能信息检索系统、学术搜索引擎优化、文献管理工具以及内容管理系统等,显著提高了信息处理的自动化水平和效率。
数据集最近研究
最新研究方向
KeywordExtractor-Datasets数据集涵盖了自动关键词提取的研究领域,其中包括多种语言和不同类型的文档,如新闻、论文摘要、科学文章等。近期研究主要聚焦于如何利用深度学习、自然语言处理技术从这些文档中提取出具有代表性的关键词。这些研究不仅关注提取的准确性,还涉及跨领域、跨语言的适应性以及小样本训练情况下的性能。特别是针对关键短语提取在科学文献中的应用,研究者们探索了利用文献引用网络、 crowdsourcing和专家标注相结合的方法,以提升关键词提取的效度和信度。此外,对于不同领域的特定数据集,如农业文档、生物信息学论文等,研究者们也在开发定制化的提取模型,以适应特定领域的特点。
以上内容由遇见数据集搜集并总结生成



