maciej-ogrodniczuk/polsum
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/maciej-ogrodniczuk/polsum
下载链接
链接失效反馈官方服务:
资源简介:
Polish Summaries Corpus数据集包含大量新闻文章的手动摘要,每个文本都有多个独立创建的摘要,旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语,许可证为CC-BY-3.0。
Polish Summaries Corpus数据集包含大量新闻文章的手动摘要,每个文本都有多个独立创建的摘要,旨在克服摘要算法评估中的注释者偏差问题。数据集的结构包括新闻文章的标题、作者、正文和多个独立创建的摘要。数据集的语言为波兰语,许可证为CC-BY-3.0。
提供机构:
maciej-ogrodniczuk
原始信息汇总
数据集概述:波兰摘要语料库
基本信息
- 名称: 波兰摘要语料库(Polish Summaries Corpus)
- 语言: 波兰语(pl)
- 许可证: CC-BY-3.0
- 多语言性: 单语种(monolingual)
- 数据集大小: 小于1千条记录(n<1K)
- 源数据: 原始数据(original)
- 任务类别: 摘要(summarization)
- 任务ID: 新闻文章摘要(news-articles-summarization)
数据集结构
数据实例
每个数据实例包含以下字段:
- id: 字符串类型,记录ID
- date: 字符串类型,日期
- title: 字符串类型,标题
- section: 字符串类型,文章部分
- authors: 字符串类型,作者
- body: 字符串类型,文章内容
- summaries: 序列类型,包含摘要信息,每个摘要包含以下字段:
- ratio: 整数类型,比例
- type: 字符串类型,类型
- author: 字符串类型,作者
- body: 字符串类型,摘要内容
- spans: 序列类型,包含以下字段:
- start: 整数类型,开始位置
- end: 整数类型,结束位置
- span_text: 字符串类型,文本范围
数据分割
- 训练集(train):
- 字节数: 34787575
- 示例数: 569
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 专家生成
数据集使用注意事项
- 数据集用于新闻文章摘要任务,适用于研究和开发摘要算法。
- 使用时需遵守CC-BY-3.0许可证。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



