five

gopalkalpande/bbc-news-summary

收藏
Hugging Face2022-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gopalkalpande/bbc-news-summary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于提取式文本摘要,包含2004年至2005年间BBC的417篇政治新闻文章,存放在News Articles文件夹中。每篇文章在Summaries文件夹中提供了五个摘要。文章的第一句话是相应的标题。数据集基于D. Greene和P. Cunningham的论文中使用的数据集创建,原始数据版权归BBC所有。
提供机构:
gopalkalpande
原始信息汇总

数据集概述

数据集内容

  • 类型: 抽取式文本摘要数据集
  • 来源: BBC新闻网站
  • 时间范围: 2004年至2005年
  • 文章数量: 417篇政治新闻文章
  • 文章存储位置: News Articles文件夹
  • 摘要数量: 每篇文章对应5篇摘要
  • 摘要存储位置: Summaries文件夹
  • 文章结构: 每篇文章的第一句为标题

数据集用途

  • 目的: 用于抽取式文本摘要研究
  • 特点: 通过选择重要信息并剔除不重要和冗余信息,将大量信息压缩成简洁形式
  • 方法: 使用某种方法为句子打分,并使用得分最高的句子作为摘要
  • 优势: 生成过程计算量较小,无需监督,语言独立
  • 局限: 摘要可能不够流畅,相邻句子间可能缺乏连贯性

版权与许可

  • 版权归属: 所有内容版权归BBC所有
  • 使用许可: CC0-1.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作