five

JoyeJiang/PwC4KPG

收藏
Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JoyeJiang/PwC4KPG
下载链接
链接失效反馈
官方服务:
资源简介:
PwC4KPG数据集是一个用于文本生成的英语数据集,数据规模在1K到10K之间。该数据集从PwC的原始语料库中提取了字段、任务、方法、数据集、指标、标题和摘要等信息。总共提取了6,012篇论文,其中2,119篇包含所有五个类别的“关键词”,其余3,839篇仅包含部分类别。数据集分为训练集(5,012篇)、开发集(500篇)和测试集(500篇)。该数据集仅限非商业研究使用,并且需要手动批准才能访问。
提供机构:
JoyeJiang
原始信息汇总

PwC4KPG 数据集

数据集概述

  • 任务类别: 文本生成
  • 语言: 英语
  • 数据规模: 1K<n<10K

数据集内容

  • 数据来源: 从PwC原始语料库中提取了领域、任务、方法、数据集、指标、标题和摘要,前提是论文具有完整的标题和摘要。
  • 数据量: 共提取了6,012篇论文,其中2,119篇包含所有五类“关键词”,其余3,839篇仅包含其中一部分。
  • 数据划分:
    • 训练集: 5,012篇
    • 验证集: 500篇
    • 测试集: 500篇

数据集使用

  • 使用限制: 仅限非商业研究使用。
  • 访问要求: 需要手动审批,请发送邮件至yijiang@whu.edu.cn,说明(1)Huggingface账号名称;(2)机构/公司名称;(3)使用此数据集的目的。

相关论文

  • 论文标题: Generating keyphrases for readers: A controllable keyphrase generation framework
  • 发表期刊: Journal of the Association for Information Science and Technology (JASIST) 2023
  • 作者: Jiang, Yi 等
  • 卷期页码: 卷74,期7,页码759--774
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作