five

midas/cstr

收藏
Hugging Face2022-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/cstr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于评估从英文科学论文中提取和生成关键词的技术。数据集包含文档的唯一标识符、文档内容、文档中每个单词的BIO标签、提取的关键词和抽象关键词。数据集分为训练集和测试集,训练集包含130个数据点,测试集包含500个数据点。
提供机构:
midas
原始信息汇总

数据集概述

数据集目的

用于评估英语科学论文中的关键词提取和生成技术。

数据集结构

数据字段
  • id: 文档的唯一标识符。
  • document: 文档中的单词列表,以空格分隔。
  • doc_bio_tags: 文档中每个单词的BIO标签,其中B表示关键词的开始,I表示关键词内部,O表示非关键词部分。
  • extractive_keyphrases: 文档中出现的关键词列表。
  • abstractive_keyphrase: 文档中未出现的关键词列表。
数据分割
  • Train: 130个数据点
  • Test: 500个数据点

数据集使用

通过load_dataset函数加载数据集,可以访问训练集和测试集中的样本,查看其字段和内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作