dipanjanS/dialogsum-copy

Name: dipanjanS/dialogsum-copy
Creator: dipanjanS
Published: 2024-04-02 09:08:26
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/dipanjanS/dialogsum-copy

下载链接

链接失效反馈

官方服务：

资源简介：

DIALOGSum Corpus是一个大规模的对话摘要数据集，包含13,460个对话及其手动标注的摘要和主题。数据集从多个公开对话语料库中收集，涵盖了广泛的日常生活话题，如学校、工作、医疗、购物、休闲和旅行等。每个对话的摘要都遵循特定的标注标准，以确保摘要的准确性和简洁性。数据集分为训练集、验证集和测试集，分别包含12,460、500和1,500个对话，另外还有100个保留数据用于主题生成。

提供机构：

dipanjanS

原始信息汇总

数据集概述

数据集名称

DIALOGSum Corpus

数据集摘要

DialogSum是一个大规模的对话摘要数据集，包含13,460个对话及其对应的人工标注摘要和主题。此数据集主要用于研究和培训演示。

语言

英语

数据集结构

数据实例

数据集包含13,460个对话，分为训练集、测试集和验证集。每个实例包括对话文本、人工编写的摘要和主题，以及唯一的文件ID。

数据字段

dialogue: 对话文本。
summary: 对话的人工摘要。
topic: 对话的主题或一句话摘要。
id: 实例的唯一标识符。

数据分割

train: 12,460个实例
val: 500个实例
test: 1,500个实例
holdout: 100个实例（仅包含id、dialogue、topic三个特征）

数据集创建

采集理由

数据集从三个公共对话语料库和一个英语口语练习网站收集，覆盖日常生活广泛话题，具有丰富的现实生活场景和清晰的沟通模式。

语言生产者和标注者

语言生产者: 语言学家
标注者: 语言专家

许可信息

CC BY-NC-SA 4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集