yuningm/citesum
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuningm/citesum
下载链接
链接失效反馈官方服务:
资源简介:
CiteSum是一个包含科学论文的TLDR摘要的数据集,这些摘要来自论文的引用文本,没有人工标注,因此比之前的人工标注数据集SciTLDR大约大了30倍。
提供机构:
yuningm
原始信息汇总
CiteSum
描述
CiteSum: 引文文本引导的科学极端摘要和低资源领域适应。
CiteSum 包含科学论文的 TLDR 摘要,这些摘要是从引文文本中自动生成的,无需人工标注,使其比之前的人工筛选数据集 SciTLDR 大约大 30 倍。
作者
- Yuning Mao, Ming Zhong, Jiawei Han
- 伊利诺伊大学厄巴纳-香槟分校
{yuningm2, mingz5, hanj}@illinois.edu
数据集大小
- 训练集: 83304
- 验证集: 4721
- 测试集: 4921
数据详情
- src (字符串): 源文本,论文的详细描述
- tgt (字符串): 目标文本,论文的 TLDR 摘要
- paper_id (字符串): 论文的唯一标识符
- title (字符串): 论文的标题
- discipline (字典):
- venue (字符串): 论文发表的会议
- journal (字符串): 论文发表的期刊
- mag_field_of_study (列表[字符串]): 论文所属的科学领域
示例: json { "src": "我们描述了一个卷积神经网络,该网络使用标签作为监督信号来学习短文本帖子的特征表示。所提出的方法在预测100,000个可能的标签的同时,训练了多达55亿个单词。除了在标签预测任务本身上的强大性能外,我们还展示了其学习的文本表示(忽略标签)在其他任务上也是有用的。为此,我们在文档推荐任务上展示了结果,它也优于许多基线。", "tgt": "REF中提出了一种用于预测标签的卷积神经网络模型。", "paper_id": "14697143", "title": "#TagSpace: 语义嵌入从标签", "discipline": { "venue": "EMNLP", "journal": null, "mag_field_of_study": ["计算机科学"] } }
使用数据集
python from datasets import load_dataset
ds = load_dataset("yuningm/citesum")



