dipanjanS/dialogsum-copy
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/dipanjanS/dialogsum-copy
下载链接
链接失效反馈官方服务:
资源简介:
DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其手动标注的摘要和主题。数据集从多个公开对话语料库中收集,涵盖了广泛的日常生活话题,如学校、工作、医疗、购物、休闲和旅行等。每个对话的摘要都遵循特定的标注标准,以确保摘要的准确性和简洁性。数据集分为训练集、验证集和测试集,分别包含12,460、500和1,500个对话,另外还有100个保留数据用于主题生成。
DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其手动标注的摘要和主题。数据集从多个公开对话语料库中收集,涵盖了广泛的日常生活话题,如学校、工作、医疗、购物、休闲和旅行等。每个对话的摘要都遵循特定的标注标准,以确保摘要的准确性和简洁性。数据集分为训练集、验证集和测试集,分别包含12,460、500和1,500个对话,另外还有100个保留数据用于主题生成。
提供机构:
dipanjanS
原始信息汇总
数据集概述
数据集名称
DIALOGSum Corpus
数据集摘要
DialogSum是一个大规模的对话摘要数据集,包含13,460个对话及其对应的人工标注摘要和主题。此数据集主要用于研究和培训演示。
语言
英语
数据集结构
数据实例
数据集包含13,460个对话,分为训练集、测试集和验证集。每个实例包括对话文本、人工编写的摘要和主题,以及唯一的文件ID。
数据字段
- dialogue: 对话文本。
- summary: 对话的人工摘要。
- topic: 对话的主题或一句话摘要。
- id: 实例的唯一标识符。
数据分割
- train: 12,460个实例
- val: 500个实例
- test: 1,500个实例
- holdout: 100个实例(仅包含id、dialogue、topic三个特征)
数据集创建
采集理由
数据集从三个公共对话语料库和一个英语口语练习网站收集,覆盖日常生活广泛话题,具有丰富的现实生活场景和清晰的沟通模式。
语言生产者和标注者
- 语言生产者: 语言学家
- 标注者: 语言专家
许可信息
CC BY-NC-SA 4.0



