five

KeywordExtractor-Datasets

收藏
github2020-03-03 更新2024-05-31 收录
下载链接:
https://github.com/sunyilgdx/KeywordExtractor-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含自动关键词提取的标注数据集。

This repository contains an annotated dataset for automatic keyword extraction.
创建时间:
2019-05-16
原始信息汇总

数据集概述

本数据集包含20个自动关键词提取的标注数据集,涵盖多种语言、文档类型和领域。以下是各数据集的详细信息:

数据集名称 语言 文档类型 领域 文档数量 黄金关键词数量(每文档) 每文档字数 缺失黄金关键词比例
110-PT-BN-KP PT 新闻 杂项 110 2610 (23.73) 304.00 2.5%
500N-KPCrowd-v1.1 EN 新闻 杂项 500 24459 (48.92) 408.33 13.5%
Inspec EN 摘要 计算机科学 2000 29230 (14.62) 128.20 37.7%
Krapivin2009 EN 论文 计算机科学 2304 14599 (6.34) 8040.74 15.3%
KP20K EN 摘要 计算机科学 570809 3017637 (5.28) xxxxxxx 44.3%
Nguyen2007 EN 论文 计算机科学 209 2369 (11.33) 5201.09 17.8%
PubMed EN 论文 计算机科学 500 7620 (15.24) 3992.78 60.2%
Schutz2008 EN 论文 计算机科学 1231 55013 (44.69) 3901.31 13.6%
SemEval2010 EN 论文 计算机科学 243 4002 (16.47) 8332.34 11.3%
SemEval2017 EN 段落 杂项 493 8969 (18.19) 178.22 0.0%
WikiNews FR 新闻 杂项 100 1177 (11.77) 293.52 5.0%
cacic ES 论文 计算机科学 888 4282 (4.82) 3985.84 2.2%
citeulike180 EN 论文 杂项 183 3370 (18.42) 4796.08 32.2%
fao30 EN 论文 农业 30 997 (33.23) 4777.70 41.7%
fao780 EN 论文 农业 779 6990 (8.97) 4971.79 36.1%
kdd EN 论文 计算机科学 755 3831 (5.07) 75.97 53.2%
pak2018 PL 摘要 杂项 50 232 (4.64) 97.36 64.7%
persaD FA XXXXXXXX XXXXX 553111 2041626 (3.69) xxxxx 30.5%
theses100 EN 硕士/博士论文 杂项 100 767 (7.67) 4728.86 47.6%
wicc ES 论文 计算机科学 1640 7498 (4.57) 1955.56 2.7%
wiki20 EN 研究报告 计算机科学 20 730 (36.50) 6177.65 51.8%
www EN 论文 计算机科学 1330 7711 (5.80) 84.08 55.0%
搜集汇总
数据集介绍
main_image_url
构建方式
KeywordExtractor-Datasets 数据集的构建主要依托于对科学文献、新闻报道、学术论文等多种类型的文本进行关键词标注。该数据集包含了不同语言、不同领域的文本,如葡萄牙语新闻、英语学术论文等。构建过程中,部分数据集通过众包方式获取关键词,部分则由专业人士或原作者进行标注,确保了关键词的准确性和多样性。
使用方法
使用KeywordExtractor-Datasets 数据集时,用户可以根据自己的需求选择合适的数据集。下载数据集后,用户可以直接使用标注好的关键词进行模型训练或性能评估。对于包含多个标注者的数据集,用户还可以分析不同标注者之间的共识和差异,以进一步提高关键词提取算法的鲁棒性。
背景与挑战
背景概述
KeywordExtractor-Datasets是一个涵盖多种语言的自动关键短语提取的数据集集合。该数据集由20个子数据集组成,包括葡萄牙语、英语、法语、西班牙语、波斯语等语言,涉及新闻、科技论文、会议论文、硕士和博士论文等多种类型的文档。创建于不同时间,由多个研究机构和个人研究者共同构建,这些数据集为关键短语提取领域的研究提供了丰富的实验资源,推动了相关技术的发展。特别是其中的KP20K数据集,包含了超过57万篇摘要和300万黄金关键词,对领域影响力深远。
当前挑战
在构建KeywordExtractor-Datasets的过程中,研究者们面临了多方面的挑战。首先,不同语言和领域的文档带来了注释的一致性和准确性的挑战。其次,构建过程中需要处理大量的文本数据,对数据标注的质量控制和处理效率提出了挑战。此外,数据集中部分文档的黄金关键词缺失或标注不一致,为后续的数据使用和研究带来了困难。领域问题的挑战包括如何提高关键短语提取的准确率和召回率,以及如何适应不同领域和语言的特点。
常用场景
经典使用场景
KeywordExtractor-Datasets数据集广泛用于自动关键短语提取任务,其经典使用场景包括文本挖掘、信息检索、学术文献分析以及内容摘要等领域。在这些场景中,研究人员可以借助该数据集对不同类型和领域的文档进行关键短语提取,以实现文本的快速理解和信息的高效聚合。
解决学术问题
该数据集解决了学术研究中关键短语提取的一致性和准确性问题,为评估和改进关键短语提取算法提供了标准基准。它帮助研究者克服了人工标注成本高、主观性强的难题,推动了自动文本分析技术的发展。
实际应用
在实际应用中,KeywordExtractor-Datasets被用于构建智能信息检索系统、学术搜索引擎优化、文献管理工具以及内容管理系统等,显著提高了信息处理的自动化水平和效率。
数据集最近研究
最新研究方向
KeywordExtractor-Datasets数据集涵盖了自动关键词提取的研究领域,其中包括多种语言和不同类型的文档,如新闻、论文摘要、科学文章等。近期研究主要聚焦于如何利用深度学习、自然语言处理技术从这些文档中提取出具有代表性的关键词。这些研究不仅关注提取的准确性,还涉及跨领域、跨语言的适应性以及小样本训练情况下的性能。特别是针对关键短语提取在科学文献中的应用,研究者们探索了利用文献引用网络、 crowdsourcing和专家标注相结合的方法,以提升关键词提取的效度和信度。此外,对于不同领域的特定数据集,如农业文档、生物信息学论文等,研究者们也在开发定制化的提取模型,以适应特定领域的特点。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作