mwz/ursum
收藏Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mwz/ursum
下载链接
链接失效反馈官方服务:
资源简介:
乌尔都语摘要数据集包含来自BBC Urdu网站的新闻文章及其摘要。数据集共有48,071篇新闻文章,每篇文章都标注有标题、摘要和全文。数据集适用于乌尔都语文本的自动摘要训练和评估,以及自然语言处理、机器学习和信息检索的研究。
提供机构:
mwz
原始信息汇总
数据集概述
基本信息
- 数据集名称: Urdu Summarization
- 语言: Urdu
- 大小: 48,071 篇文章
- 许可: MIT License
数据内容
- 类型: 新闻文章及其摘要
- 来源: BBC Urdu 网站
- 时间范围: 2003 至 2020 年
- 主题: 政治、体育、技术、娱乐等
数据结构
- 列信息:
- id: 文章唯一标识符
- url: 原始文章链接
- title: 文章标题
- summary: 文章摘要
- text: 文章全文
数据处理
- 预处理: 移除HTML标签和非Urdu字符
- 摘要创建: 由人工注释者根据全文创建
- 数据分割: 训练集80%, 验证集10%, 测试集10%
应用场景
- 自动摘要模型训练与评估
- 自然语言处理、机器学习和信息检索研究



