rahular/varta-urls
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/varta-urls
下载链接
链接失效反馈官方服务:
资源简介:
Varta是一个多样化、具有挑战性、大规模、多语言且高质量的新闻标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据从印度的新闻聚合器DailyHunt爬取,该平台从多个可信和有声望的新闻出版商中提取高质量文章。数据集的语言包括阿萨姆语、博杰普尔语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。
Varta是一个多样化、具有挑战性、大规模、多语言且高质量的新闻标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据从印度的新闻聚合器DailyHunt爬取,该平台从多个可信和有声望的新闻出版商中提取高质量文章。数据集的语言包括阿萨姆语、博杰普尔语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。
提供机构:
rahular
原始信息汇总
数据集概述
名称: Varta
类型: 多语言新闻文章数据集
规模: 包含41.8 million新闻文章
语言: 支持15种语言,包括Assamese, Bhojpuri, Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Oriya, Punjabi, Tamil, Telugu, Urdu
数据来源: 数据爬取自DailyHunt,一个印度流行的新闻聚合平台
用途: 用于标题生成、特征提取等任务
许可: CC-BY 4.0
数据集结构
数据实例
每个数据实例包含以下字段:
- id: 文章在DailyHunt上的唯一标识
- langCode: ISO 639-1语言代码
- source_url: 指向原发布网站的文章链接
- dh_url: 指向DailyHunt上的文章链接
数据分割
- 每种语言随机抽取10,000篇文章用于验证和测试
- 至少80%的数据用于训练
- 若某语言文章少于100,000篇,其验证和测试集限制为其总量的10%
- 提供一个
small训练集,包含每种语言最多100K篇文章,总计1.3M篇文章
数据重现
数据集可通过遵循提供的README文件进行重现,该文件位于GitHub仓库。



