five

NavidVafaei/rottentomato01

收藏
Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NavidVafaei/rottentomato01
下载链接
链接失效反馈
官方服务:
资源简介:
SAMSum数据集包含约16k的类似即时通讯的对话及其摘要。这些对话由英语流利的语言学家创建,反映了他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式和正式,可能包含俚语、表情符号和拼写错误。每个对话都附有一个由语言专家注释的摘要,摘要旨在简洁地概括对话内容。该数据集由三星波兰研发研究所准备,用于研究目的,采用非商业许可CC BY-NC-ND 4.0。

SAMSum数据集包含约16k的类似即时通讯的对话及其摘要。这些对话由英语流利的语言学家创建,反映了他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式和正式,可能包含俚语、表情符号和拼写错误。每个对话都附有一个由语言专家注释的摘要,摘要旨在简洁地概括对话内容。该数据集由三星波兰研发研究所准备,用于研究目的,采用非商业许可CC BY-NC-ND 4.0。
提供机构:
NavidVafaei
原始信息汇总

数据集概述

数据集名称

  • 名称: rottento Corpus
  • 别名: SAMSum

数据集基本信息

  • 语言: 英语
  • 许可证: CC BY-NC-ND 4.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 摘要生成

数据集结构

  • 特征:
    • movie: 字符串
    • id: 字符串
    • reviews: 数组
    • summary: 字符串
  • 配置名称: rottento
  • 数据分割:
    • 训练集: 14732个样本,9479141字节
    • 测试集: 819个样本,534492字节
    • 验证集: 818个样本,516431字节
  • 下载大小: 2944100字节
  • 数据集大小: 10530064字节

数据集创建

  • 数据收集与标准化: 由语言学家创建,反映日常消息应用中的对话风格和内容。
  • 注释过程: 语言专家对对话进行摘要注释,确保摘要简洁、包含重要信息和对话者名称,并以第三人称书写。

使用考虑

  • 许可证: 非商业用途,CC BY-NC-ND 4.0

引用信息

@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作