JoyeJiang/PwC4KPG
收藏Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JoyeJiang/PwC4KPG
下载链接
链接失效反馈官方服务:
资源简介:
PwC4KPG数据集是一个用于文本生成的英语数据集,数据规模在1K到10K之间。该数据集从PwC的原始语料库中提取了字段、任务、方法、数据集、指标、标题和摘要等信息。总共提取了6,012篇论文,其中2,119篇包含所有五个类别的“关键词”,其余3,839篇仅包含部分类别。数据集分为训练集(5,012篇)、开发集(500篇)和测试集(500篇)。该数据集仅限非商业研究使用,并且需要手动批准才能访问。
提供机构:
JoyeJiang
原始信息汇总
PwC4KPG 数据集
数据集概述
- 任务类别: 文本生成
- 语言: 英语
- 数据规模: 1K<n<10K
数据集内容
- 数据来源: 从PwC原始语料库中提取了领域、任务、方法、数据集、指标、标题和摘要,前提是论文具有完整的标题和摘要。
- 数据量: 共提取了6,012篇论文,其中2,119篇包含所有五类“关键词”,其余3,839篇仅包含其中一部分。
- 数据划分:
- 训练集: 5,012篇
- 验证集: 500篇
- 测试集: 500篇
数据集使用
- 使用限制: 仅限非商业研究使用。
- 访问要求: 需要手动审批,请发送邮件至yijiang@whu.edu.cn,说明(1)Huggingface账号名称;(2)机构/公司名称;(3)使用此数据集的目的。
相关论文
- 论文标题: Generating keyphrases for readers: A controllable keyphrase generation framework
- 发表期刊: Journal of the Association for Information Science and Technology (JASIST) 2023
- 作者: Jiang, Yi 等
- 卷期页码: 卷74,期7,页码759--774



