knkarthick/topicsum
收藏Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/knkarthick/topicsum
下载链接
链接失效反馈官方服务:
资源简介:
TopicSum Corpus是一个大规模对话摘要数据集,由XSUM和DialogSUM组成,包含241,171个对话及其对应的人工标注的一行摘要/主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的语言为英语,数据实例包括对话、摘要和唯一ID,数据分割为训练集、验证集和测试集。数据集的创建理由是为了收集XSUM和DialogSUM数据集,语言生产者和注释者分别为语言学家和语言专家。数据集的许可证为MIT,非商业用途。
提供机构:
knkarthick
原始信息汇总
TopicSum Corpus 数据集概述
数据集描述
摘要
TopicSum Corpus 是一个大规模对话摘要数据集,包含来自 XSUM 和 DialogSUM 的 241,171 个对话及其对应的人工标注的一行摘要/主题。
语言
- 英语
数据集结构
数据实例
数据集包含 241,171 个对话,分为训练集、验证集和测试集。
数据字段
dialogue: 对话文本。summary: 人工编写的一行摘要/主题。id: 示例的唯一文件ID。
数据分割
- 训练集: 216,505
- 验证集: 11,832
- 测试集: 12,834
数据集创建
采集理由
整合 XSUM 和 DialogSUM 数据集。
语言来源
- 语言学家
标注者
- 语言专家
许可证信息
- 非商业用途许可证: MIT
引用信息
请参考上述链接获取引用和致谢信息。



