knkarthick/dialogsum_reformat

Name: knkarthick/dialogsum_reformat
Creator: knkarthick
Published: 2024-04-22 14:34:56
License: 暂无描述

Hugging Face2024-04-22 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/knkarthick/dialogsum_reformat

下载链接

链接失效反馈

官方服务：

资源简介：

DIALOGSum Corpus是一个大规模的对话摘要数据集，包含13,460个对话及其对应的人工标注的摘要和主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的创建基于三个公开的对话语料库和一个英语口语练习网站，涵盖了广泛的日常生活主题。数据集的标注由语言专家完成，遵循特定的摘要标准。数据集的语言为英语，许可证为MIT。

提供机构：

knkarthick

原始信息汇总

数据集概述

数据集名称

名称: DIALOGSum Corpus
别名: DialogSum

数据集描述

类型: 对话摘要数据集
规模: 包含13,460对话（外加100个用于主题生成的保留数据）
语言: 英语
许可: MIT

数据集结构

数据实例: 包含训练集、验证集和测试集，总计13,460对话（+1000测试）
数据字段:
- dialogue: 对话文本
- summary: 人工编写的对话摘要
- topic: 人工编写的对话主题/一句话概述
- id: 唯一文件ID
数据分割:
- train: 12,460
- val: 500
- test: 1,500
- holdout: 100（仅包含id, dialogue, topic三个字段）

数据集创建

来源: 从三个公共对话语料库（Dailydialog, DREAM, MuTual）和一个英语口语练习网站收集
注释标准:
- 传达最重要的信息
- 简洁
- 保留对话中的重要命名实体
- 以观察者视角编写
- 使用正式语言
语言生产者: 语言学家
注释者: 语言专家

许可信息

许可类型: 非商业用途的MIT许可

5,000+

优质数据集

54 个

任务类型

进入经典数据集