five

knkarthick/topicsum

收藏
Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/knkarthick/topicsum
下载链接
链接失效反馈
官方服务:
资源简介:
TopicSum Corpus是一个大规模对话摘要数据集,由XSUM和DialogSUM组成,包含241,171个对话及其对应的人工标注的一行摘要/主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的语言为英语,数据实例包括对话、摘要和唯一ID,数据分割为训练集、验证集和测试集。数据集的创建理由是为了收集XSUM和DialogSUM数据集,语言生产者和注释者分别为语言学家和语言专家。数据集的许可证为MIT,非商业用途。
提供机构:
knkarthick
原始信息汇总

TopicSum Corpus 数据集概述

数据集描述

摘要

TopicSum Corpus 是一个大规模对话摘要数据集,包含来自 XSUM 和 DialogSUM 的 241,171 个对话及其对应的人工标注的一行摘要/主题。

语言

  • 英语

数据集结构

数据实例

数据集包含 241,171 个对话,分为训练集、验证集和测试集。

数据字段

  • dialogue: 对话文本。
  • summary: 人工编写的一行摘要/主题。
  • id: 示例的唯一文件ID。

数据分割

  • 训练集: 216,505
  • 验证集: 11,832
  • 测试集: 12,834

数据集创建

采集理由

整合 XSUM 和 DialogSUM 数据集。

语言来源

  • 语言学家

标注者

  • 语言专家

许可证信息

  • 非商业用途许可证: MIT

引用信息

请参考上述链接获取引用和致谢信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作