ake-datasets
收藏github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/boudinfl/ake-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含大量精选基准数据集的仓库,用于评估自动关键词提取算法。数据集经过Stanford CoreNLP套件预处理,并以XML格式提供。数据集结构包括测试、训练、验证文档和参考关键词,适用于多种语言和文档类型。
This repository contains a large collection of curated benchmark datasets designed for evaluating automatic keyword extraction algorithms. The datasets have been preprocessed using the Stanford CoreNLP suite and are provided in XML format. The dataset structure includes test, training, and validation documents along with reference keywords, making it suitable for a variety of languages and document types.
创建时间:
2018-07-11
原始信息汇总
数据集概述
数据集格式
- 结构: 所有数据集遵循统一的目录结构,包括
test,train,dev,src, 和references子目录。 - 文件格式: 参考关键短语以JSON格式存储,命名规则为
[split].[annotator].[stem]?.json。
参考(金标准注释)格式
- 注释类型: 包括作者(A)、读者(R)、编辑(E)、专业索引者(I)。
- 文件示例: json { "doc-1": [ ["target detect"], ["number of sensor", "sensor number"] ], ... }
可用数据集
| 数据集 | 语言 | 类型 | 训练 | 验证 | 测试 | 注释类型 | 测试集关键短语数量 | 测试集单词数量 |
|---|---|---|---|---|---|---|---|---|
| CSTR [1] | en | 完整论文 | 130 | - | 500 | A | 5.4 | 11501.4 |
| NUS [3] | en | 完整论文 | - | - | 211 | A+R | 11.0 | 8398.3 |
| PubMed [5] | en | 完整论文 | - | - | 1320 | A | 5.4 | 5322.9 |
| ACM [6] | en | 完整论文 | - | - | 2304 | A | 5.3 | 9197.6 |
| Citeulike-180[13] | en | 完整论文 | - | - | 182 | R | 5.4 | 8589.7 |
| SemEval-2010[10] | en | 完整论文 | 144 | - | 100 | A+R | 14.7 | 7961.2 |
| KP20k [15] | en | 摘要 | 527,090 | 20,000 | 20,000 | A | 176 | 5.3 |
| Inspec [2] | en | 摘要 | 1000 | 500 | 500 | I (uncontr) | 9.8 | 134.6 |
| TALN-Archives[14] | en/fr | 摘要 | - | - | 521/1207 | A | 4.0/4.1 | 123.1/141.0 |
| KDD [9] | en | 摘要 | - | - | 755 | A | 4.1 | 190.7 |
| WWW [9] | en | 摘要 | - | - | 1330 | A | 4.8 | 163.5 |
| TermITH-Eval[11] | fr | 摘要 | - | - | 400 | I | 11.8 | 164.7 |
| KPTimes [16] | en | 新闻 | 259,923 | 10,000 | 20,000 | E | 5.0 | 921 |
| DUC-2001 [4] | en | 新闻 | - | - | 308 | R | 8.1 | 847.2 |
| 500N-KPCrowd[7] | en | 新闻 | 450 | - | 50 | R | 46.2 | 465.3 |
| 110-PT-BN-KP[12] | pt | 新闻 | 100 | - | 10 | R | 27.6 | 439.4 |
| Wikinews-Keyphrase[8] | fr | 新闻 | - | - | 100 | R | 9.7 | 313.6 |
数据集特点
- 预处理: 所有数据集均使用Stanford CoreNLP套件进行预处理。
- 格式: 数据集提供XML格式文件。
- 下载与预处理: 大型数据集如
KP20k,KPTimes需从dataset/src目录下载并预处理。
搜集汇总
数据集介绍

构建方式
ake-datasets数据集的构建基于广泛使用的Stanford CoreNLP工具套件进行预处理,确保数据的标准化和一致性。数据集的组织结构遵循统一的目录结构,包括训练集、测试集、验证集以及源数据和参考关键词的存储。参考关键词以JSON格式存储,便于评估自动关键词提取算法的性能。对于大规模数据集,如KP20k和KPTimes,用户需自行下载并使用提供的源代码进行预处理,以确保数据集的完整性和可用性。
特点
ake-datasets数据集的显著特点在于其多样性和广泛性,涵盖了从学术论文到新闻报道等多种文本类型,支持多种语言,如英语、法语和葡萄牙语。数据集中的关键词标注由作者、读者、编辑或专业索引员完成,确保了标注的权威性和多样性。此外,数据集提供了详细的统计信息,如关键词数量和文本长度,便于研究者根据需求选择合适的子集进行实验。
使用方法
使用ake-datasets数据集时,用户首先需根据需求下载相应的数据子集,并按照提供的目录结构进行组织。对于大规模数据集,用户需使用提供的源代码进行预处理。数据集中的参考关键词以JSON格式存储,用户可直接加载这些文件进行模型训练和评估。此外,数据集提供了详细的文档和示例,帮助用户快速上手并进行有效的关键词提取算法开发和测试。
背景与挑战
背景概述
ake-datasets数据集是由一系列精心策划的基准数据集组成,专门用于评估自动关键词提取算法。这些数据集涵盖了多种语言和领域,包括学术论文、新闻摘要等,且均经过Stanford CoreNLP套件的预处理,并以XML格式存储。该数据集的创建旨在为关键词提取算法提供一个标准化的评估平台,推动该领域的研究进展。主要研究人员和机构包括Witten、Hulth、Nguyen等,他们的研究成果在多个国际会议上发表,如EMNLP、ACL等。该数据集的核心研究问题是如何从文本中自动提取出最具代表性的关键词,这对于信息检索、文本摘要等领域具有重要意义。
当前挑战
ake-datasets数据集在构建和应用过程中面临多项挑战。首先,不同领域的文本特性各异,如何设计通用的关键词提取算法以适应多样化的文本类型是一个重要挑战。其次,数据集的标注质量直接影响算法的评估效果,因此确保标注的一致性和准确性至关重要。此外,大规模数据集的处理和存储也是一个技术难题,尤其是对于如KP20k和KPTimes这样的大型数据集,如何高效地进行数据预处理和存储是一个亟待解决的问题。最后,随着自然语言处理技术的快速发展,如何持续更新和扩展数据集以适应新的算法需求也是一个长期挑战。
常用场景
经典使用场景
ake-datasets数据集在自动关键词提取算法评估中扮演着至关重要的角色。其经典使用场景主要体现在为研究人员提供了一个标准化的测试平台,用于比较和验证不同关键词提取算法的效果。通过使用该数据集,研究者可以针对不同类型的文档(如学术论文、新闻摘要等)进行关键词提取实验,从而评估算法的准确性和鲁棒性。
实际应用
ake-datasets数据集在实际应用中具有广泛的价值,特别是在信息检索、文本摘要和知识图谱构建等领域。例如,在学术搜索引擎中,准确的关键词提取可以帮助用户更快地找到相关文献;在新闻摘要生成中,关键词提取可以提高摘要的精炼度和相关性;在知识图谱构建中,关键词提取则有助于识别和组织知识节点。
衍生相关工作
ake-datasets数据集的发布催生了一系列相关的经典工作。例如,基于该数据集的研究提出了多种关键词提取算法,如KEA、TopicRank等,这些算法在学术界和工业界都得到了广泛应用。此外,该数据集还促进了深度学习在关键词提取中的应用,如基于神经网络的关键词生成模型,进一步提升了关键词提取的准确性和效率。
以上内容由遇见数据集搜集并总结生成



