five

rahular/varta-urls

收藏
Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/varta-urls
下载链接
链接失效反馈
官方服务:
资源简介:
Varta是一个多样化、具有挑战性、大规模、多语言且高质量的新闻标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据从印度的新闻聚合器DailyHunt爬取,该平台从多个可信和有声望的新闻出版商中提取高质量文章。数据集的语言包括阿萨姆语、博杰普尔语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。

Varta是一个多样化、具有挑战性、大规模、多语言且高质量的新闻标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据从印度的新闻聚合器DailyHunt爬取,该平台从多个可信和有声望的新闻出版商中提取高质量文章。数据集的语言包括阿萨姆语、博杰普尔语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。
提供机构:
rahular
原始信息汇总

数据集概述

名称: Varta

类型: 多语言新闻文章数据集

规模: 包含41.8 million新闻文章

语言: 支持15种语言,包括Assamese, Bhojpuri, Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Oriya, Punjabi, Tamil, Telugu, Urdu

数据来源: 数据爬取自DailyHunt,一个印度流行的新闻聚合平台

用途: 用于标题生成、特征提取等任务

许可: CC-BY 4.0

数据集结构

数据实例

每个数据实例包含以下字段:

  • id: 文章在DailyHunt上的唯一标识
  • langCode: ISO 639-1语言代码
  • source_url: 指向原发布网站的文章链接
  • dh_url: 指向DailyHunt上的文章链接

数据分割

  • 每种语言随机抽取10,000篇文章用于验证和测试
  • 至少80%的数据用于训练
  • 若某语言文章少于100,000篇,其验证和测试集限制为其总量的10%
  • 提供一个small训练集,包含每种语言最多100K篇文章,总计1.3M篇文章

数据重现

数据集可通过遵循提供的README文件进行重现,该文件位于GitHub仓库

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作