five

knkarthick/dialogsum_reformat

收藏
Hugging Face2024-04-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/knkarthick/dialogsum_reformat
下载链接
链接失效反馈
官方服务:
资源简介:
DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其对应的人工标注的摘要和主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的创建基于三个公开的对话语料库和一个英语口语练习网站,涵盖了广泛的日常生活主题。数据集的标注由语言专家完成,遵循特定的摘要标准。数据集的语言为英语,许可证为MIT。

DIALOGSum Corpus是一个大规模的对话摘要数据集,包含13,460个对话及其对应的人工标注的摘要和主题。数据集主要用于摘要生成、文本到文本生成和文本生成任务。数据集的创建基于三个公开的对话语料库和一个英语口语练习网站,涵盖了广泛的日常生活主题。数据集的标注由语言专家完成,遵循特定的摘要标准。数据集的语言为英语,许可证为MIT。
提供机构:
knkarthick
原始信息汇总

数据集概述

数据集名称

  • 名称: DIALOGSum Corpus
  • 别名: DialogSum

数据集描述

  • 类型: 对话摘要数据集
  • 规模: 包含13,460对话(外加100个用于主题生成的保留数据)
  • 语言: 英语
  • 许可: MIT

数据集结构

  • 数据实例: 包含训练集、验证集和测试集,总计13,460对话(+1000测试)
  • 数据字段:
    • dialogue: 对话文本
    • summary: 人工编写的对话摘要
    • topic: 人工编写的对话主题/一句话概述
    • id: 唯一文件ID
  • 数据分割:
    • train: 12,460
    • val: 500
    • test: 1,500
    • holdout: 100(仅包含id, dialogue, topic三个字段)

数据集创建

  • 来源: 从三个公共对话语料库(Dailydialog, DREAM, MuTual)和一个英语口语练习网站收集
  • 注释标准:
    • 传达最重要的信息
    • 简洁
    • 保留对话中的重要命名实体
    • 以观察者视角编写
    • 使用正式语言
  • 语言生产者: 语言学家
  • 注释者: 语言专家

许可信息

  • 许可类型: 非商业用途的MIT许可
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作