midas/kp20k
收藏数据集概述
数据集目的
用于评估和比较英文科学论文摘要的关键词提取和生成技术。
数据集结构
- id: 文档的唯一标识符。
- document: 文档中单词的空格分隔列表。
- doc_bio_tags: 文档中每个单词的BIO标签,其中B表示关键词的开始,I表示关键词内部,O表示非关键词部分。
- extractive_keyphrases: 文档中现有的关键词列表。
- abstractive_keyphrase: 文档中不存在的关键词列表。
数据集统计
| 分割 | 数据点数量 |
|---|---|
| 训练 | 530,809 |
| 测试 | 20,000 |
| 验证 | 20,000 |
数据集使用
- 全数据集加载: 使用
load_dataset("midas/kp20k", "raw")加载整个数据集。 - 关键词提取: 使用
load_dataset("midas/kp20k", "extraction")加载仅用于关键词提取的数据集。 - 关键词生成: 使用
load_dataset("midas/kp20k", "generation")加载仅用于关键词生成的数据集。
引用信息
@InProceedings{meng-EtAl:2017:Long, author = {Meng, Rui and Zhao, Sanqiang and Han, Shuguang and He, Daqing and Brusilovsky, Peter and Chi, Yu}, title = {Deep Keyphrase Generation}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month = {July}, year = {2017}, address = {Vancouver, Canada}, publisher = {Association for Computational Linguistics}, pages = {582--592}, url = {http://aclweb.org/anthology/P17-1054} }
@article{mahata2022ldkp, title={LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents}, author={Mahata, Debanjan and Agarwal, Navneet and Gautam, Dibya and Kumar, Amardeep and Parekh, Swapnil and Singla, Yaman Kumar and Acharya, Anish and Shah, Rajiv Ratn}, journal={arXiv preprint arXiv:2203.15349}, year={2022} }




