five

allegro/klej-psc

收藏
Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allegro/klej-psc
下载链接
链接失效反馈
官方服务:
资源简介:
波兰摘要语料库(PSC)是一个包含569篇新闻文章摘要的数据集。每篇文章由人类标注者创建五个提取式摘要,选择大约5%的原始文本。部分文章还补充了五个抽象式摘要。在HuggingFace版本中,同一篇文章的摘要被用作正对,而不同文章的最相似摘要被采样为负对。数据集用于文本相似性任务,通过生成正负对来训练模型。
提供机构:
allegro
原始信息汇总

数据集概述

名称: Polish Summaries Corpus (PSC)

语言: 波兰语 (pl)

许可证: Creative Commons Attribution ShareAlike 3.0 (CC-BY-SA 3.0)

多语言性: 单语种

大小: 5K 至 10K 之间

来源: 原始数据

任务类别: 文本分类

描述: PSC 是一个包含569篇新闻文章摘要的数据集。每篇文章由不同的人工标注者创建了五个提取式摘要,约占原文的5%。此外,154篇文章的子集还补充了每个文章的五个抽象式摘要。在HuggingFace版本中,同一文章的摘要被用作正样本,而不同文章的最相似摘要被采样为负样本。

任务详情

任务: 预测提取的文本和摘要是否相似

输入: 提取文本和摘要文本

输出: 标签(1表示相似,0表示不相似)

领域: 新闻文章

度量标准: F1-Score

数据分割

子集 基数
训练 4302
验证 0
测试 1078

类别分布

类别 训练 验证 测试
不相似 0.705 - 0.696
相似 0.295 - 0.304

引用

@inproceedings{ogro:kop:14:lrec, title={The {P}olish {S}ummaries {C}orpus}, author={Ogrodniczuk, Maciej and Kope{c}, Mateusz}, booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014", year = "2014", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作