WikinewsKeyphraseCorpus

github2019-10-16 更新2024-05-31 收录

下载链接：

https://github.com/adrien-bougouin/WikinewsKeyphraseCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库用于评估自动关键词提取系统，包含2012年5月至12月期间在WikiNews上发布的100篇文档。文件ref包含至少三个注释者（学生）给出的组合参考关键词，而文件ref_3.xml包含每个文档的关键词，未经组合。

This corpus is designed for evaluating automatic keyword extraction systems and comprises 100 documents published on WikiNews between May and December 2012. The file 'ref' includes combined reference keywords provided by at least three annotators (students), whereas the file 'ref_3.xml' contains keywords for each document without combination.

创建时间：

2013-07-22

原始信息汇总

数据集概述

名称： WikinewsKeyphraseCorpus

目的： 用于评估自动关键词提取系统的性能。

包含内容：

文档数量： 100篇
发布时间： 2012年5月至2012年12月
来源： WikiNews

文件说明：

ref文件： 包含由至少三位标注者（学生）提供的参考关键词组合。
ref_3.xml文件： 包含与每篇文档关联的关键词，未进行组合。

搜集汇总

数据集介绍

构建方式

针对自动关键词提取系统的评估需求，WikinewsKeyphraseCorpus数据集应运而生。该数据集的构建选取了100篇在2012年5月至12月间发布于WikiNews的文档，通过至少三名 annotators（学生）的共同努力，形成了文件ref中的综合参考关键词。与此同时，ref_3.xml文件则记录了与每篇文档相关联的关键词，并未进行合并处理，保留了原始标注信息。

使用方法

使用该数据集时，研究者可根据ref文件中的综合参考关键词进行算法的评估和验证，同时可利用ref_3.xml文件中的原始标注数据进行算法的调试和改进。此外，数据集的构建方式也支持对关键词提取系统在不同时间跨度的性能进行横向比较研究。

背景与挑战

背景概述

在自动关键词提取技术领域，评估系统的准确性与效率至关重要。WikinewsKeyphraseCorpus数据集应运而生，旨在为该领域的研究提供评价基准。该数据集由伦敦大学玛丽女王学院的计算机科学系创建于2012年，收集了100篇在2012年5月至12月期间发布的WikiNews文档。数据集的构建得益于至少三名标注者（学生）的共同努力，他们提供了每篇文档的参考关键词，这些关键词被汇总在名为'ref'的文件中，而'ref_3.xml'文件则记录了与每篇文档相关的关键词，未经合并。该数据集为关键词提取算法的研究与评估提供了宝贵的资源，对自然语言处理领域产生了显著影响。

当前挑战

尽管WikinewsKeyphraseCorpus为关键词提取领域的研究提供了有力支持，但在实际应用中仍面临诸多挑战。首先，关键词提取的准确性依赖于标注的质量，而不同标注者之间的主观差异可能导致标注结果的不一致性。其次，构建过程中遇到的挑战包括如何确保文档的代表性，以及如何处理关键词之间的关联性和多样性。此外，数据集规模相对较小，可能不足以反映真实世界中文档的复杂性，这在一定程度上限制了其评估结果的普遍适用性。

常用场景

经典使用场景

在自动关键短语提取技术领域，WikinewsKeyphraseCorpus数据集被广泛作为评估基准。该数据集由100篇在2012年5月至12月间发布的WikiNews文档构成，其经典使用场景在于为关键短语提取算法的训练与测试提供精确的标注数据，从而推动算法性能的提升与优化。

解决学术问题

该数据集解决了学术研究中关键短语提取准确性和一致性评估的问题。通过多标注者的参与，为关键短语提取的参考标准提供了多元化的视角，进而提高了评估的全面性与可靠性，对相关领域的学术研究具有重要的参考价值。

实际应用

在实际应用中，该数据集可助力新闻媒体、内容聚合平台以及搜索引擎优化其文本摘要与检索系统。通过精确提取关键短语，不仅能够提升用户的信息检索效率，还能增强自动化内容处理系统的智能程度。

数据集最近研究