midas/kpcrowd

Name: midas/kpcrowd
Creator: midas
Published: 2022-02-12 05:52:48
License: 暂无描述

Hugging Face2022-02-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/midas/kpcrowd

下载链接

链接失效反馈

官方服务：

资源简介：

kpcrowd数据集用于评估从英文新闻文章中提取和生成关键词的技术。数据集包含450个训练文档和50个测试文档。每个文档包含唯一的标识符、文档内容、BIO标签、提取的关键词和抽象的关键词。数据集的统计信息包括关键词的长度分布、文档长度、关键词数量等。

The KPCrowd dataset is designed to evaluate techniques for extracting and generating keywords from English news articles. It contains 450 training documents and 50 test documents. Each document includes a unique identifier, document content, BIO tags, extracted keywords, and abstracted keywords. The statistical information of the dataset covers the length distribution of keywords, document length, the number of keywords, and other relevant metrics.

提供机构：

midas

原始信息汇总

数据集概述

该数据集用于评估从英文新闻文章中提取和生成关键词的技术。数据集详细信息可参考原始论文：https://arxiv.org/abs/1306.4886。

数据集结构

数据集统计

抽取式关键词长度统计（训练集和测试集）：
- 单个词：训练集 81.62%，测试集 80.27%
- 两个词：训练集 14.41%，测试集 15.44%
- 三个词：训练集 2.79%，测试集 3.36%
- 四个词：训练集 0.78%，测试集 0.56%
- 五个词：训练集 0.20%，测试集 0.25%
- 六个词：训练集 0.12%，测试集 0.05%
- 七个词：训练集 0%，测试集 0.05%
- 八个词：训练集 0.01%，测试集 0%
抽象式关键词长度统计（训练集和测试集）：
- 零个词：训练集 0.24%，测试集 0%
- 单个词：训练集 22.38%，测试集 21.81%
- 两个词：训练集 45.14%，测试集 43.03%
- 三个词：训练集 18.35%，测试集 19.69%
- 四个词：训练集 7.71%，测试集 7.28%
- 五个词：训练集 3.09%，测试集 3.94%
- 六个词：训练集 1.51%，测试集 3.33%
- 七个词：训练集 0.82%，测试集 0.61%
- 八个词：训练集 0.55%，测试集 0.30%
- 九个词：训练集 0.17%，测试集 0%
数据集一般统计：
- 注释者类型：作者
- 文档类型：新闻文章
- 文档数量：训练集 450，测试集 50
- 平均文档长度（词）：训练集 511.89，测试集 465.3
- 最大文档长度（词）：训练集 7006，测试集 1609
- 文档中抽象式关键词的最大数量：训练集 66，测试集 30
- 文档中抽象式关键词的最小数量：训练集 0，测试集 0
- 平均每个文档的抽象式关键词数量：训练集 6.45，测试集 6.6
- 文档中抽取式关键词的最大数量：训练集 231，测试集 86
- 文档中抽取式关键词的最小数量：训练集 5，测试集 9
- 平均每个文档的抽取式关键词数量：训练集 42.81，测试集 39.24

数据字段

id：文档的唯一标识符。
document：文档中的单词列表，以空格分隔。
doc_bio_tags：文档中每个单词的BIO标签，B表示关键词的开始，I表示关键词内部，O表示非关键词部分。
extractive_keyphrases：文档中存在的所有关键词列表。
abstractive_keyphrase：文档中不存在的所有关键词列表。

数据分割

训练集：450个数据点
测试集：50个数据点

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，关键词提取与生成是文本挖掘的核心任务。KPCrowd数据集的构建源于对英文新闻文章的系统性标注，其原始论文详细阐述了数据采集与处理流程。该数据集包含500篇新闻文档，由作者亲自进行人工标注，确保了标注质量的一致性。文档被划分为450篇训练集与50篇测试集，每篇文档均标注了抽取式关键词与生成式关键词，并辅以BIO序列标注，为模型训练提供了结构化基础。这种严谨的构建方式为关键词技术的评估建立了可靠的基准。

使用方法

利用KPCrowd数据集进行实验时，研究者可通过HuggingFace的datasets库便捷加载。调用load_dataset函数并指定"midas/kpcrowd"与"raw"配置即可获取完整数据。数据样本包含文档ID、分词序列、BIO标签、抽取式与生成式关键词列表等字段。用户可分别访问训练集与测试集，进行模型训练与性能评估。该数据集适用于监督学习框架，尤其适合关键词提取与生成任务的模型开发，为自然语言处理研究提供了实践平台。

背景与挑战

背景概述

在自然语言处理领域，关键词提取与生成是信息检索与文本理解的核心任务。KPCrowd数据集由相关研究人员于2013年构建，旨在为英文新闻文章的关键词提取与生成技术提供基准评估。该数据集包含500篇新闻文档，由作者进行标注，区分了抽取式关键词与生成式关键词，为研究社区提供了丰富的标注资源。其设计聚焦于解决从真实文本中自动识别与创造关键概念的挑战，推动了关键词分析模型的发展，并在文档摘要、知识图谱构建等领域产生了深远影响。

当前挑战

KPCrowd数据集所针对的关键词提取与生成任务面临多重挑战。在领域问题层面，模型需同时处理抽取式与生成式关键词，前者要求精确匹配文本片段，后者则需理解语义并生成未显式出现的关键概念，这对算法的泛化与创造力构成考验。构建过程中，标注一致性是一大难题，因为关键词的选择往往具有主观性，且新闻文本的多样性与长度差异增加了标注复杂度。此外，数据集中抽取式关键词以单字为主，而生成式关键词多为多字组合，这种分布差异对模型训练提出了平衡与适应的要求。

常用场景

经典使用场景

在自然语言处理领域，关键词提取与生成技术是信息检索与文本理解的核心任务。KPCrowd数据集以其精心标注的英文新闻文章，为研究者提供了评估抽取式与生成式关键词方法的标准化基准。该数据集通过标注文档中现有关键词与抽象关键词，使得模型能够同时学习识别文本内显性短语并生成概括性术语，从而全面衡量算法在真实新闻语境下的性能表现。

解决学术问题

KPCrowd数据集有效应对了关键词研究中标注稀疏与评估标准不统一的学术挑战。其通过区分抽取式与抽象式关键词，解决了传统方法难以评估生成性关键词质量的困境，为模型设计提供了双重评估维度。该数据集推动了关键词生成模型从单纯匹配向语义概括的演进，促进了序列标注与生成式架构的融合创新，在自然语言处理领域建立了更为严谨的评估范式。

实际应用

在实际应用层面，KPCrowd数据集支撑了自动化摘要系统、搜索引擎优化与内容推荐引擎的关键技术开发。新闻机构与数字媒体平台可借助基于该数据集训练的模型，快速从海量文章中提取核心术语，增强内容索引效率与用户检索体验。其对于抽象关键词的标注进一步助力生成贴合主题的标签与摘要，提升了信息聚合系统在动态新闻流中的实时处理能力。

数据集最近研究