midas/krapivin

Name: midas/krapivin
Creator: midas
Published: 2022-01-10 06:52:51
License: 暂无描述

Hugging Face2022-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/midas/krapivin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估从长篇英文科学论文中提取和生成关键词的技术。数据集包含文档的唯一标识符、文档内容、BIO标签、提取性关键词和抽象性关键词等字段。测试集包含2305个数据点。

This dataset is intended to evaluate techniques for extracting and generating keywords from long English scientific papers. It includes fields such as the unique document identifier, document content, BIO tags, extractive keywords, and abstractive keywords. The test set consists of 2305 data points.

提供机构：

midas

原始信息汇总

数据集概述

本数据集用于评估从长篇英文科学论文中提取和生成关键词的技术。数据集详细信息可参考原始论文：Large Dataset for Keyphrases Extraction。

数据集结构

数据字段

id: 文档的唯一标识符。
document: 文档中单词的空格分隔列表。
doc_bio_tags: 文档中每个单词的BIO标签。B表示关键词的开始，I表示关键词内部，O表示非关键词部分。
extractive_keyphrases: 当前存在的所有关键词列表。
abstractive_keyphrase: 当前不存在的所有关键词列表。

数据分割

分割	数据点数量
测试	2305

使用方法

完整数据集

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("midas/krapivin", "raw")

从测试分割中取样

print("测试数据集分割样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"]) print("提取/现有关键词: ", test_sample["extractive_keyphrases"]) print("抽象/缺失关键词: ", test_sample["abstractive_keyphrases"])

关键词提取

python from datasets import load_dataset

加载仅用于关键词提取的数据集

dataset = load_dataset("midas/krapivin", "extraction")

print("关键词提取样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"])

关键词生成

python

加载仅用于关键词生成的数据集

dataset = load_dataset("midas/krapivin", "generation")

print("关键词生成样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("提取/现有关键词: ", test_sample["extractive_keyphrases"]) print("抽象/缺失关键词: ", test_sample["abstractive_keyphrases"])

引用信息

@inproceedings{Krapivin2009LargeDF, title={Large Dataset for Keyphrases Extraction}, author={Mikalai Krapivin and Aliaksandr Autaeu and Maurizio Marchese}, year={2009} }

搜集汇总

数据集介绍

构建方式

Midas/krapivin数据集的构建，旨在为关键短语提取和生成技术提供基准测试。该数据集的构建，是通过从长篇英文科学论文中提取关键短语，并对文档中的每个单词标注BIO（Boundary, Inside, Outside）标签来实现的，其中B、I代表关键短语的起始和内部，O代表非关键短语的单词。数据集包含文档的唯一标识符、文档分词、BIO标签、已提取的关键短语以及未提取的关键短语。

特点

该数据集的特点在于其规模宏大，且专注于长篇科学论文，这使得它在关键短语提取和生成领域具有独特性。数据集的结构包括文档的详细字段，如唯一标识符、分词后的文档、BIO标签、已提取和未提取的关键短语。此外，数据集提供了不同的划分，包括用于测试的数据点，这为研究者提供了验证模型性能的机会。

使用方法

使用该数据集时，可以通过HuggingFace的datasets库加载整个数据集或其子集。针对关键短语提取和生成，数据集提供了专门的子集，用户可以根据需要选择加载。加载后，用户可以从测试集获取样本，并查看样本的字段、分词后的文档、BIO标签以及关键短语等信息，以便进行模型训练和评估。

背景与挑战

背景概述

在信息检索与文本挖掘领域，关键短语提取是识别和提取文本中重要概念的技术。Midas/Krapivin数据集，创建于2009年，由Mikalai Krapivin、Aliaksandr Autaeu和Maurizio Marchese等研究人员构建，旨在为长篇英文科学论文的关键短语提取与生成技术提供评估基准。该数据集汇集了大量文档，每篇文档均标注有关键短语的存在与否，为相关领域的研究提供了丰富而全面的资源，对提高关键短语提取技术的准确性和效率产生了深远影响。

当前挑战

Midas/Krapivin数据集在构建过程中面临了诸多挑战，其中包括确保关键短语的标注质量，以适应不同领域和学科的术语多样性。此外，数据集在处理长文档时，如何有效提取并生成关键短语，以及如何准确区分抽取式和生成式关键短语的界限，都是当前研究必须克服的技术难题。这些挑战不仅要求算法具有高度的精确性和鲁棒性，同时也考验着数据集构建者的智慧与耐心。

常用场景

经典使用场景

在科学文献领域，关键短语提取与生成为信息检索和文本挖掘提供了重要支撑。Midas/krapivin数据集作为此类研究的基准，其经典使用场景在于评估关键短语提取技术的有效性和准确性。该数据集包含大量英文科学论文的文档，通过对文档中的单词进行BIO标注，研究者能够识别出文档中的关键短语，进而对提取和生成技术进行量化评估。

解决学术问题

Midas/krapivin数据集解决了学术研究中关键短语提取和生成方面的多项难题，如缺乏大规模标注数据集、评估指标不一致等问题。该数据集提供了丰富的标注数据，使得研究者能够更为准确地评估不同算法的性能，推动了关键短语提取技术的进步，对学术文献的自动化处理和知识发现具有重要意义。

衍生相关工作

基于Midas/krapivin数据集的研究衍生出了众多相关工作，如关键短语提取算法的改进、关键短语生成的文本生成模型、以及多语言关键短语提取等。这些工作不仅拓展了关键短语处理技术的边界，也为多语言信息检索和文本挖掘领域的发展做出了贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集