five

Axel578/mydt

收藏
Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Axel578/mydt
下载链接
链接失效反馈
官方服务:
资源简介:
SAMSum数据集包含约16,000条类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,反映了他们日常即时通讯对话的主题比例。对话的风格和语域多样化,可能包含非正式、半正式或正式的语言,以及俚语、表情符号和拼写错误。摘要由语言专家标注,旨在简洁地概括对话内容,并以第三人称书写。该数据集由三星波兰研发研究所准备,并用于研究目的(非商业许可:CC BY-NC-ND 4.0)。

The SAMSum dataset contains approximately 16,000 instant messaging-style dialogues paired with their respective summaries. These dialogues were created by English-proficient linguists, which reflect the topic proportions of their daily instant messaging conversations. The dialogues feature diverse styles and registers, including informal, semi-formal or formal language, as well as slang, emojis and spelling errors. The summaries are annotated by language experts, aiming to concisely summarize the dialogue content and are written in the third person. This dataset was prepared by the Samsung Poland R&D Institute for research purposes, under a non-commercial license: CC BY-NC-ND 4.0.
提供机构:
Axel578
原始信息汇总

数据集概述

数据集名称: SAMSum Corpus

数据集简介: SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,旨在反映他们日常通讯中的话题分布。对话风格多样,包括非正式、半正式或正式,可能包含俚语、表情符号和拼写错误。

语言: 英语

许可证: CC BY-NC-ND 4.0

数据集大小: 10K<n<100K

源数据: 原始数据

任务类别: 摘要生成

数据集结构

数据实例: 数据集包含16,369个对话,均匀分布在四个基于对话中话语数量的组中:3-6, 7-12, 13-18, 19-30。大多数对话涉及两个对话者(约75%),其余涉及三个或更多人。

数据字段:

  • id: 字符串,唯一标识符。
  • dialogue: 字符串,对话文本。
  • summary: 字符串,对话的人工编写摘要。

数据分割:

  • 训练集: 14,732个样本
  • 测试集: 819个样本
  • 验证集: 818个样本

数据集创建

数据收集与规范化: 由语言学家创建对话,反映他们日常通讯中的话题分布,不包含敏感数据或其他语料库的片段。

注释过程: 每个对话由一名语言学家创建,然后由语言专家进行摘要标注,要求摘要简短、提取重要信息、包含对话者名称并以第三人称编写。

注释者: 语言专家

使用数据注意事项

许可证信息: 非商业许可证: CC BY-NC-ND 4.0

引用信息:

@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作