knkarthick/dialogsum_reformat
收藏Hugging Face2024-04-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/knkarthick/dialogsum_reformat
下载链接
链接失效反馈官方服务:
资源简介:
DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其对应的人工标注的摘要和主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的创建基于三个公开的对话语料库和一个英语口语练习网站,涵盖了广泛的日常生活主题。数据集的标注由语言专家完成,遵循特定的摘要标准。数据集的语言为英语,许可证为MIT。
DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其对应的人工标注的摘要和主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的创建基于三个公开的对话语料库和一个英语口语练习网站,涵盖了广泛的日常生活主题。数据集的标注由语言专家完成,遵循特定的摘要标准。数据集的语言为英语,许可证为MIT。
提供机构:
knkarthick
原始信息汇总
数据集概述
数据集名称
- 名称: DIALOGSum Corpus
- 别名: DialogSum
数据集描述
- 类型: 对话摘要数据集
- 规模: 包含13,460对话(外加100个用于主题生成的保留数据)
- 语言: 英语
- 许可: MIT
数据集结构
- 数据实例: 包含训练集、验证集和测试集,总计13,460对话(+1000测试)
- 数据字段:
- dialogue: 对话文本
- summary: 人工编写的对话摘要
- topic: 人工编写的对话主题/一句话概述
- id: 唯一文件ID
- 数据分割:
- train: 12,460
- val: 500
- test: 1,500
- holdout: 100(仅包含id, dialogue, topic三个字段)
数据集创建
- 来源: 从三个公共对话语料库(Dailydialog, DREAM, MuTual)和一个英语口语练习网站收集
- 注释标准:
- 传达最重要的信息
- 简洁
- 保留对话中的重要命名实体
- 以观察者视角编写
- 使用正式语言
- 语言生产者: 语言学家
- 注释者: 语言专家
许可信息
- 许可类型: 非商业用途的MIT许可



