maciej-ogrodniczuk/polsum

收藏

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/maciej-ogrodniczuk/polsum

下载链接

链接失效反馈

官方服务：

资源简介：

Polish Summaries Corpus数据集包含大量新闻文章的手动摘要，每个文本都有多个独立创建的摘要，旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语，许可证为CC-BY-3.0。

Polish Summaries Corpus数据集包含大量新闻文章的手动摘要，每个文本都有多个独立创建的摘要，旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语，许可证为CC-BY-3.0。

提供机构：

maciej-ogrodniczuk

原始信息汇总

数据集概述：波兰摘要语料库

基本信息

名称: 波兰摘要语料库（Polish Summaries Corpus）
语言: 波兰语（pl）
许可证: CC-BY-3.0
多语言性: 单语种（monolingual）
数据集大小: 小于1千条记录（n<1K）
源数据: 原始数据（original）
任务类别: 摘要（summarization）
任务ID: 新闻文章摘要（news-articles-summarization）

数据集结构

数据实例

每个数据实例包含以下字段：

id: 字符串类型，记录ID
date: 字符串类型，日期
title: 字符串类型，标题
section: 字符串类型，文章部分
authors: 字符串类型，作者
body: 字符串类型，文章内容
summaries: 序列类型，包含摘要信息，每个摘要包含以下字段：
- ratio: 整数类型，比例
- type: 字符串类型，类型
- author: 字符串类型，作者
- body: 字符串类型，摘要内容
- spans: 序列类型，包含以下字段：
  - start: 整数类型，开始位置
  - end: 整数类型，结束位置
  - span_text: 字符串类型，文本范围

数据分割

训练集（train）:
- 字节数: 34787575
- 示例数: 569

数据集创建

注释创建者: 专家生成
语言创建者: 专家生成

数据集使用注意事项

数据集用于新闻文章摘要任务，适用于研究和开发摘要算法。
使用时需遵守CC-BY-3.0许可证。

搜集汇总

数据集介绍

main_image_url

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作