five

maciej-ogrodniczuk/polsum

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/maciej-ogrodniczuk/polsum
下载链接
链接失效反馈
官方服务:
资源简介:
Polish Summaries Corpus数据集包含大量新闻文章的手动摘要,每个文本都有多个独立创建的摘要,旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语,许可证为CC-BY-3.0。

Polish Summaries Corpus数据集包含大量新闻文章的手动摘要,每个文本都有多个独立创建的摘要,旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语,许可证为CC-BY-3.0。
提供机构:
maciej-ogrodniczuk
原始信息汇总

数据集概述:波兰摘要语料库

基本信息

  • 名称: 波兰摘要语料库(Polish Summaries Corpus)
  • 语言: 波兰语(pl)
  • 许可证: CC-BY-3.0
  • 多语言性: 单语种(monolingual)
  • 数据集大小: 小于1千条记录(n<1K)
  • 源数据: 原始数据(original)
  • 任务类别: 摘要(summarization)
  • 任务ID: 新闻文章摘要(news-articles-summarization)

数据集结构

数据实例

每个数据实例包含以下字段:

  • id: 字符串类型,记录ID
  • date: 字符串类型,日期
  • title: 字符串类型,标题
  • section: 字符串类型,文章部分
  • authors: 字符串类型,作者
  • body: 字符串类型,文章内容
  • summaries: 序列类型,包含摘要信息,每个摘要包含以下字段:
    • ratio: 整数类型,比例
    • type: 字符串类型,类型
    • author: 字符串类型,作者
    • body: 字符串类型,摘要内容
    • spans: 序列类型,包含以下字段:
      • start: 整数类型,开始位置
      • end: 整数类型,结束位置
      • span_text: 字符串类型,文本范围

数据分割

  • 训练集(train):
    • 字节数: 34787575
    • 示例数: 569

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成

数据集使用注意事项

  • 数据集用于新闻文章摘要任务,适用于研究和开发摘要算法。
  • 使用时需遵守CC-BY-3.0许可证。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作