NavidVafaei/rottentomato01
收藏Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NavidVafaei/rottentomato01
下载链接
链接失效反馈官方服务:
资源简介:
SAMSum数据集包含约16k的类似即时通讯的对话及其摘要。这些对话由英语流利的语言学家创建,反映了他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式和正式,可能包含俚语、表情符号和拼写错误。每个对话都附有一个由语言专家注释的摘要,摘要旨在简洁地概括对话内容。该数据集由三星波兰研发研究所准备,用于研究目的,采用非商业许可CC BY-NC-ND 4.0。
SAMSum数据集包含约16k的类似即时通讯的对话及其摘要。这些对话由英语流利的语言学家创建,反映了他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式和正式,可能包含俚语、表情符号和拼写错误。每个对话都附有一个由语言专家注释的摘要,摘要旨在简洁地概括对话内容。该数据集由三星波兰研发研究所准备,用于研究目的,采用非商业许可CC BY-NC-ND 4.0。
提供机构:
NavidVafaei
原始信息汇总
数据集概述
数据集名称
- 名称: rottento Corpus
- 别名: SAMSum
数据集基本信息
- 语言: 英语
- 许可证: CC BY-NC-ND 4.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 摘要生成
数据集结构
- 特征:
- movie: 字符串
- id: 字符串
- reviews: 数组
- summary: 字符串
- 配置名称: rottento
- 数据分割:
- 训练集: 14732个样本,9479141字节
- 测试集: 819个样本,534492字节
- 验证集: 818个样本,516431字节
- 下载大小: 2944100字节
- 数据集大小: 10530064字节
数据集创建
- 数据收集与标准化: 由语言学家创建,反映日常消息应用中的对话风格和内容。
- 注释过程: 语言专家对对话进行摘要注释,确保摘要简洁、包含重要信息和对话者名称,并以第三人称书写。
使用考虑
- 许可证: 非商业用途,CC BY-NC-ND 4.0
引用信息
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }



