community-datasets/psc
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/psc
下载链接
链接失效反馈官方服务:
资源简介:
波兰摘要语料库包含波兰语的新闻文章及其摘要。数据集中,同一篇文章的摘要被用作正样本,而不同文章的最相似摘要被采样为负样本。数据集的结构包括提取的文本、摘要文本以及标签,标签用于指示摘要是否与原文相似。数据集分为训练集和测试集,测试集没有标签列。数据集的创建目的是为了提供新闻文章摘要的对比分析,支持的任务是新闻文章摘要生成。数据集的许可证为CC BY-SA 3.0,并且提供了相关的引用信息。
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
- 数据集名称: psc
- 数据集摘要: 波兰摘要语料库包含新闻文章及其摘要。我们使用相同文章的摘要作为正样本对,并采样最相似的不同文章的摘要作为负样本。
- 支持的任务和排行榜:
- 任务类别: 摘要生成
- 任务ID: 新闻文章摘要生成
- 语言: 波兰语
数据集结构
数据实例
[更多信息待补充]
数据字段
- extract_text: 待摘要的文本
- summary_text: 提取文本的摘要
- label: 1 表示摘要相似,0 表示不相似
数据分割
- 训练集:
- 字节数: 5026582
- 样本数: 4302
- 测试集:
- 字节数: 1292103
- 样本数: 1078
数据集创建
数据集来源
- 初始数据收集和规范化: [更多信息待补充]
- 源语言生产者: [更多信息待补充]
标注
- 标注过程: [更多信息待补充]
- 标注者: [更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
CC BY-SA 3.0
引用信息
@inproceedings{ogro:kop:14:lrec, title={The {P}olish {S}ummaries {C}orpus}, author={Ogrodniczuk, Maciej and Kope{c}, Mateusz}, booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014", year = "2014", }
贡献
感谢 @abecadel 添加此数据集。



