Axel578/mydt
收藏数据集概述
数据集名称: SAMSum Corpus
数据集简介: SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,旨在反映他们日常通讯中的话题分布。对话风格多样,包括非正式、半正式或正式,可能包含俚语、表情符号和拼写错误。
语言: 英语
许可证: CC BY-NC-ND 4.0
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 摘要生成
数据集结构
数据实例: 数据集包含16,369个对话,均匀分布在四个基于对话中话语数量的组中:3-6, 7-12, 13-18, 19-30。大多数对话涉及两个对话者(约75%),其余涉及三个或更多人。
数据字段:
- id: 字符串,唯一标识符。
- dialogue: 字符串,对话文本。
- summary: 字符串,对话的人工编写摘要。
数据分割:
- 训练集: 14,732个样本
- 测试集: 819个样本
- 验证集: 818个样本
数据集创建
数据收集与规范化: 由语言学家创建对话,反映他们日常通讯中的话题分布,不包含敏感数据或其他语料库的片段。
注释过程: 每个对话由一名语言学家创建,然后由语言专家进行摘要标注,要求摘要简短、提取重要信息、包含对话者名称并以第三人称编写。
注释者: 语言专家
使用数据注意事项
许可证信息: 非商业许可证: CC BY-NC-ND 4.0
引用信息:
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }



