five

SAMSum_Corpus

收藏
魔搭社区2025-09-11 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/SAMSum_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: SAMSum Corpus labelTypes: - Classification license: - CC BY-NC-ND 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1911.12237v2.pdf publishDate: "2019" publishUrl: https://github.com/huggingface/datasets/tree/master/datasets/samsum publisher: - Samsung R&D Institute Poland tags: - Text taskTypes: - Text Summarization/Simplication - Federated Learning - Abstractive Text Summarization --- # 数据集介绍 ## 简介 SAMSum 数据集包含大约 16k 个带有摘要的类似信使的对话。对话由精通英语的语言学家创建和记录。语言学家被要求创建类似于他们每天所写的对话,以反映他们现实生活中的信使对话的主题比例。风格和语域是多样化的——对话可以是非正式的、半正式的或正式的,它们可能包含俚语、表情符号和错别字。然后,用摘要对对话进行注释。假设摘要应该是人们在第三人称对话中所谈论内容的简明扼要。 SAMSum 数据集由波兰三星研发研究所准备并分发用于研究目的(非商业许可:CC BY-NC-ND 4.0)。 ## 引文 ``` "@article{gliwa2019samsum, title={SAMSum corpus: A human-annotated dialogue dataset for abstractive summarization}, author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander}, journal={arXiv preprint arXiv:1911.12237}, year={2019} }" ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: SAMSum语料库 labelTypes: - 分类 license: - CC BY-NC-ND 4.0 mediaTypes: - 文本 paperUrl: https://arxiv.org/pdf/1911.12237v2.pdf publishDate: "2019" publishUrl: https://github.com/huggingface/datasets/tree/master/datasets/samsum publisher: - 波兰三星研发研究院 tags: - 文本 taskTypes: - 文本摘要与简化 - 联邦学习 - 抽象式文本摘要 --- # 数据集介绍 ## 简介 SAMSum数据集包含约1.6万个带摘要的类即时通讯对话。此类对话由熟练掌握英语的语言学家创作并标注。语言学家被要求创作贴合日常写作风格的对话,以还原真实即时通讯场景下的对话主题分布比例。对话的风格与语域多样,可涵盖非正式、半正式乃至正式场景,且可能包含俚语、表情符号与拼写错误。随后,专业人员将为每段对话添加摘要标注,该摘要需以第三人称简明概括对话的核心内容。本数据集由波兰三星研发研究院筹备发布,仅用于学术研究,许可协议为CC BY-NC-ND 4.0。 ## 引文 "@article{gliwa2019samsum, title={SAMSum corpus: A human-annotated dialogue dataset for abstractive summarization}, author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander}, journal={arXiv preprint arXiv:1911.12237}, year={2019} }" ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作