Samsung/samsum

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Samsung/samsum

下载链接

链接失效反馈

资源简介：

SAMSum数据集包含约16k条类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建，反映了他们日常通讯中的话题比例。对话的风格和用词多样化，可能包含非正式、半正式或正式的语言，以及俚语、表情符号和拼写错误。每条对话都附有摘要，摘要应简洁地概括对话内容，并以第三人称书写。该数据集由三星波兰研发中心准备，并用于研究目的（非商业许可证：CC BY-NC-ND 4.0）。

The SAMSum dataset contains approximately 16k instant messaging-style conversations and their corresponding summaries. These conversations were created by English-proficient linguists and reflect the topic distribution in their daily communications. The conversations feature diverse styles and vocabulary, ranging from informal, through semi-formal to formal language, and may include slang, emojis, and spelling errors. Each conversation is paired with a summary that concisely captures the core content of the dialogue and is written in the third person. This dataset was prepared by the Samsung Poland R&D Center for research purposes, with a non-commercial license: CC BY-NC-ND 4.0.

提供机构：

Samsung

原始信息汇总

数据集概述

数据集名称： SAMSum Corpus

数据集简介： SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建，旨在反映他们日常即时通讯对话的主题比例。对话风格多样，包括非正式、半正式或正式，可能包含俚语、表情符号和拼写错误。随后，这些对话被语言专家标注了摘要，摘要应简洁地概述对话内容，并以第三人称表达。

语言： 英语

许可证： CC BY-NC-ND 4.0（非商业用途）

数据集大小： 数据集总大小为10,530,064字节，下载大小为2,944,100字节。

数据集结构

数据实例： 数据集包含16,369个对话，均匀分布在根据对话中语句数量划分的四个组中：3-6句、7-12句、13-18句和19-30句。大多数对话涉及两个对话者（约占所有对话的75%），其余涉及三个或更多人。

数据字段：

id: 字符串，唯一标识符。
dialogue: 字符串，对话文本。
summary: 字符串，对话的人工摘要。

数据分割：

训练集： 14,732个实例。
测试集： 819个实例。
验证集： 818个实例。

数据集创建

来源数据： 数据由语言学家创建，反映了他们日常即时通讯对话的主题比例，包括闲聊、朋友间的八卦、安排会议、讨论政治、与同事咨询大学作业等。

标注过程： 每个对话由一名语言专家创建，并由另一名语言专家标注摘要。摘要要求简短、提取重要信息、包含对话者姓名并以第三人称书写。

许可证信息： 非商业用途，CC BY-NC-ND 4.0。

引用信息：

@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集