midas/cstr
收藏Hugging Face2022-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/cstr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估从英文科学论文中提取和生成关键词的技术。数据集包含文档的唯一标识符、文档内容、文档中每个单词的BIO标签、提取的关键词和抽象关键词。数据集分为训练集和测试集,训练集包含130个数据点,测试集包含500个数据点。
提供机构:
midas
原始信息汇总
数据集概述
数据集目的
用于评估英语科学论文中的关键词提取和生成技术。
数据集结构
数据字段
- id: 文档的唯一标识符。
- document: 文档中的单词列表,以空格分隔。
- doc_bio_tags: 文档中每个单词的BIO标签,其中B表示关键词的开始,I表示关键词内部,O表示非关键词部分。
- extractive_keyphrases: 文档中出现的关键词列表。
- abstractive_keyphrase: 文档中未出现的关键词列表。
数据分割
- Train: 130个数据点
- Test: 500个数据点
数据集使用
通过load_dataset函数加载数据集,可以访问训练集和测试集中的样本,查看其字段和内容。



