allegro/klej-psc
收藏Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allegro/klej-psc
下载链接
链接失效反馈官方服务:
资源简介:
波兰摘要语料库(PSC)是一个包含569篇新闻文章摘要的数据集。每篇文章由人类标注者创建五个提取式摘要,选择大约5%的原始文本。部分文章还补充了五个抽象式摘要。在HuggingFace版本中,同一篇文章的摘要被用作正对,而不同文章的最相似摘要被采样为负对。数据集用于文本相似性任务,通过生成正负对来训练模型。
提供机构:
allegro
原始信息汇总
数据集概述
名称: Polish Summaries Corpus (PSC)
语言: 波兰语 (pl)
许可证: Creative Commons Attribution ShareAlike 3.0 (CC-BY-SA 3.0)
多语言性: 单语种
大小: 5K 至 10K 之间
来源: 原始数据
任务类别: 文本分类
描述: PSC 是一个包含569篇新闻文章摘要的数据集。每篇文章由不同的人工标注者创建了五个提取式摘要,约占原文的5%。此外,154篇文章的子集还补充了每个文章的五个抽象式摘要。在HuggingFace版本中,同一文章的摘要被用作正样本,而不同文章的最相似摘要被采样为负样本。
任务详情
任务: 预测提取的文本和摘要是否相似
输入: 提取文本和摘要文本
输出: 标签(1表示相似,0表示不相似)
领域: 新闻文章
度量标准: F1-Score
数据分割
| 子集 | 基数 |
|---|---|
| 训练 | 4302 |
| 验证 | 0 |
| 测试 | 1078 |
类别分布
| 类别 | 训练 | 验证 | 测试 |
|---|---|---|---|
| 不相似 | 0.705 | - | 0.696 |
| 相似 | 0.295 | - | 0.304 |
引用
@inproceedings{ogro:kop:14:lrec, title={The {P}olish {S}ummaries {C}orpus}, author={Ogrodniczuk, Maciej and Kope{c}, Mateusz}, booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014", year = "2014", }



