five

Samsung/samsum|对话摘要数据集|自然语言处理数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Samsung/samsum
下载链接
链接失效反馈
资源简介:
SAMSum数据集包含约16k条类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,反映了他们日常通讯中的话题比例。对话的风格和用词多样化,可能包含非正式、半正式或正式的语言,以及俚语、表情符号和拼写错误。每条对话都附有摘要,摘要应简洁地概括对话内容,并以第三人称书写。该数据集由三星波兰研发中心准备,并用于研究目的(非商业许可证:CC BY-NC-ND 4.0)。
提供机构:
Samsung
原始信息汇总

数据集概述

数据集名称: SAMSum Corpus

数据集简介: SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,旨在反映他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式或正式,可能包含俚语、表情符号和拼写错误。随后,这些对话被语言专家标注了摘要,摘要应简洁地概述对话内容,并以第三人称表达。

语言: 英语

许可证: CC BY-NC-ND 4.0(非商业用途)

数据集大小: 数据集总大小为10,530,064字节,下载大小为2,944,100字节。

数据集结构

数据实例: 数据集包含16,369个对话,均匀分布在根据对话中语句数量划分的四个组中:3-6句、7-12句、13-18句和19-30句。大多数对话涉及两个对话者(约占所有对话的75%),其余涉及三个或更多人。

数据字段:

  • id: 字符串,唯一标识符。
  • dialogue: 字符串,对话文本。
  • summary: 字符串,对话的人工摘要。

数据分割:

  • 训练集: 14,732个实例。
  • 测试集: 819个实例。
  • 验证集: 818个实例。

数据集创建

来源数据: 数据由语言学家创建,反映了他们日常即时通讯对话的主题比例,包括闲聊、朋友间的八卦、安排会议、讨论政治、与同事咨询大学作业等。

标注过程: 每个对话由一名语言专家创建,并由另一名语言专家标注摘要。摘要要求简短、提取重要信息、包含对话者姓名并以第三人称书写。

许可证信息: 非商业用途,CC BY-NC-ND 4.0。

引用信息:

@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作