midas/krapivin
收藏数据集概述
本数据集用于评估从长篇英文科学论文中提取和生成关键词的技术。数据集详细信息可参考原始论文:Large Dataset for Keyphrases Extraction。
数据集结构
数据字段
- id: 文档的唯一标识符。
- document: 文档中单词的空格分隔列表。
- doc_bio_tags: 文档中每个单词的BIO标签。B表示关键词的开始,I表示关键词内部,O表示非关键词部分。
- extractive_keyphrases: 当前存在的所有关键词列表。
- abstractive_keyphrase: 当前不存在的所有关键词列表。
数据分割
| 分割 | 数据点数量 |
|---|---|
| 测试 | 2305 |
使用方法
完整数据集
python from datasets import load_dataset
加载完整数据集
dataset = load_dataset("midas/krapivin", "raw")
从测试分割中取样
print("测试数据集分割样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"]) print("提取/现有关键词: ", test_sample["extractive_keyphrases"]) print("抽象/缺失关键词: ", test_sample["abstractive_keyphrases"])
关键词提取
python from datasets import load_dataset
加载仅用于关键词提取的数据集
dataset = load_dataset("midas/krapivin", "extraction")
print("关键词提取样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"])
关键词生成
python
加载仅用于关键词生成的数据集
dataset = load_dataset("midas/krapivin", "generation")
print("关键词生成样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词文档: ", test_sample["document"]) print("提取/现有关键词: ", test_sample["extractive_keyphrases"]) print("抽象/缺失关键词: ", test_sample["abstractive_keyphrases"])
引用信息
@inproceedings{Krapivin2009LargeDF, title={Large Dataset for Keyphrases Extraction}, author={Mikalai Krapivin and Aliaksandr Autaeu and Maurizio Marchese}, year={2009} }




