five

mwz/ursum

收藏
Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mwz/ursum
下载链接
链接失效反馈
官方服务:
资源简介:
乌尔都语摘要数据集包含来自BBC Urdu网站的新闻文章及其摘要。数据集共有48,071篇新闻文章,每篇文章都标注有标题、摘要和全文。数据集适用于乌尔都语文本的自动摘要训练和评估,以及自然语言处理、机器学习和信息检索的研究。
提供机构:
mwz
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Urdu Summarization
  • 语言: Urdu
  • 大小: 48,071 篇文章
  • 许可: MIT License

数据内容

  • 类型: 新闻文章及其摘要
  • 来源: BBC Urdu 网站
  • 时间范围: 2003 至 2020 年
  • 主题: 政治、体育、技术、娱乐等

数据结构

  • 列信息:
    • id: 文章唯一标识符
    • url: 原始文章链接
    • title: 文章标题
    • summary: 文章摘要
    • text: 文章全文

数据处理

  • 预处理: 移除HTML标签和非Urdu字符
  • 摘要创建: 由人工注释者根据全文创建
  • 数据分割: 训练集80%, 验证集10%, 测试集10%

应用场景

  • 自动摘要模型训练与评估
  • 自然语言处理、机器学习和信息检索研究
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作