five

community-datasets/psc

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/psc
下载链接
链接失效反馈
官方服务:
资源简介:
波兰摘要语料库包含波兰语的新闻文章及其摘要。数据集中,同一篇文章的摘要被用作正样本,而不同文章的最相似摘要被采样为负样本。数据集的结构包括提取的文本、摘要文本以及标签,标签用于指示摘要是否与原文相似。数据集分为训练集和测试集,测试集没有标签列。数据集的创建目的是为了提供新闻文章摘要的对比分析,支持的任务是新闻文章摘要生成。数据集的许可证为CC BY-SA 3.0,并且提供了相关的引用信息。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: psc
  • 数据集摘要: 波兰摘要语料库包含新闻文章及其摘要。我们使用相同文章的摘要作为正样本对,并采样最相似的不同文章的摘要作为负样本。
  • 支持的任务和排行榜:
    • 任务类别: 摘要生成
    • 任务ID: 新闻文章摘要生成
  • 语言: 波兰语

数据集结构

数据实例

[更多信息待补充]

数据字段

  • extract_text: 待摘要的文本
  • summary_text: 提取文本的摘要
  • label: 1 表示摘要相似,0 表示不相似

数据分割

  • 训练集:
    • 字节数: 5026582
    • 样本数: 4302
  • 测试集:
    • 字节数: 1292103
    • 样本数: 1078

数据集创建

数据集来源

  • 初始数据收集和规范化: [更多信息待补充]
  • 源语言生产者: [更多信息待补充]

标注

  • 标注过程: [更多信息待补充]
  • 标注者: [更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

CC BY-SA 3.0

引用信息

@inproceedings{ogro:kop:14:lrec, title={The {P}olish {S}ummaries {C}orpus}, author={Ogrodniczuk, Maciej and Kope{c}, Mateusz}, booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014", year = "2014", }

贡献

感谢 @abecadel 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作