five

yuningm/citesum

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuningm/citesum
下载链接
链接失效反馈
官方服务:
资源简介:
CiteSum是一个包含科学论文的TLDR摘要的数据集,这些摘要来自论文的引用文本,没有人工标注,因此比之前的人工标注数据集SciTLDR大约大了30倍。
提供机构:
yuningm
原始信息汇总

CiteSum

描述

CiteSum: 引文文本引导的科学极端摘要和低资源领域适应。
CiteSum 包含科学论文的 TLDR 摘要,这些摘要是从引文文本中自动生成的,无需人工标注,使其比之前的人工筛选数据集 SciTLDR 大约大 30 倍。

作者

  • Yuning Mao, Ming Zhong, Jiawei Han
  • 伊利诺伊大学厄巴纳-香槟分校
    {yuningm2, mingz5, hanj}@illinois.edu

数据集大小

  • 训练集: 83304
  • 验证集: 4721
  • 测试集: 4921

数据详情

  • src (字符串): 源文本,论文的详细描述
  • tgt (字符串): 目标文本,论文的 TLDR 摘要
  • paper_id (字符串): 论文的唯一标识符
  • title (字符串): 论文的标题
  • discipline (字典):
    • venue (字符串): 论文发表的会议
    • journal (字符串): 论文发表的期刊
    • mag_field_of_study (列表[字符串]): 论文所属的科学领域

示例: json { "src": "我们描述了一个卷积神经网络,该网络使用标签作为监督信号来学习短文本帖子的特征表示。所提出的方法在预测100,000个可能的标签的同时,训练了多达55亿个单词。除了在标签预测任务本身上的强大性能外,我们还展示了其学习的文本表示(忽略标签)在其他任务上也是有用的。为此,我们在文档推荐任务上展示了结果,它也优于许多基线。", "tgt": "REF中提出了一种用于预测标签的卷积神经网络模型。", "paper_id": "14697143", "title": "#TagSpace: 语义嵌入从标签", "discipline": { "venue": "EMNLP", "journal": null, "mag_field_of_study": ["计算机科学"] } }

使用数据集

python from datasets import load_dataset

ds = load_dataset("yuningm/citesum")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作