five

yaolu/multi_x_science_sum

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yaolu/multi_x_science_sum
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-XScience是一个大规模的多文档摘要数据集,专门用于科学文章的多文档摘要任务。该数据集引入了一个具有挑战性的多文档摘要任务:基于论文的摘要及其引用的文章来撰写论文的相关工作部分。数据集包含科学文章的摘要、引用文章的摘要以及相关工作的文本。数据集的结构包括训练集、验证集和测试集,分别包含30369、5066和5093个样本。数据集的文本为英文。

Multi-XScience是一个大规模的多文档摘要数据集,专门用于科学文章的多文档摘要任务。该数据集引入了一个具有挑战性的多文档摘要任务:基于论文的摘要及其引用的文章来撰写论文的相关工作部分。数据集包含科学文章的摘要、引用文章的摘要以及相关工作的文本。数据集的结构包括训练集、验证集和测试集,分别包含30369、5066和5093个样本。数据集的文本为英文。
提供机构:
yaolu
原始信息汇总

数据集概述

数据集名称: Multi-XScience

数据集简介: Multi-XScience是一个大规模的多文档摘要数据集,主要用于科学文章的极端多文档摘要任务。该数据集的任务是基于文章的摘要和引用的文章,撰写论文的相关工作部分。

语言: 英语

数据集大小: 数据集包含的文档数量在10,000至100,000之间。

数据集结构:

  • 数据实例: 每个实例包含论文的摘要、arxiv id、microsoft academic graph id、引用论文的摘要和相关工作文本。
  • 数据字段:
    • abstract: 论文摘要
    • aid: arxiv id
    • mid: microsoft academic graph id
    • ref_abstract: 引用论文的摘要、引用符号和microsoft academic graph id
    • related_work: 相关工作文本

数据分割:

  • 训练集: 30,369个实例
  • 验证集: 5,066个实例
  • 测试集: 5,093个实例

许可证: 许可证信息未知。

数据集来源: 原始数据

任务类别: 摘要

数据集标签: 论文摘要生成

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作