rahular/varta-urls

Name: rahular/varta-urls
Creator: rahular
Published: 2023-05-26 18:54:35
License: 暂无描述

Hugging Face2023-05-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rahular/varta-urls

下载链接

链接失效反馈

官方服务：

资源简介：

Varta是一个多样化、具有挑战性、大规模、多语言且高质量的新闻标题生成数据集，包含14种印度语言和英语的4180万篇新闻文章。数据从印度的新闻聚合器DailyHunt爬取，该平台从多个可信和有声望的新闻出版商中提取高质量文章。数据集的语言包括阿萨姆语、博杰普尔语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语。

提供机构：

rahular

原始信息汇总

数据集概述

名称: Varta

类型: 多语言新闻文章数据集

规模: 包含41.8 million新闻文章

语言: 支持15种语言，包括Assamese, Bhojpuri, Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Oriya, Punjabi, Tamil, Telugu, Urdu

数据来源: 数据爬取自DailyHunt，一个印度流行的新闻聚合平台

用途: 用于标题生成、特征提取等任务

许可: CC-BY 4.0

数据集结构

数据实例

每个数据实例包含以下字段：

id: 文章在DailyHunt上的唯一标识
langCode: ISO 639-1语言代码
source_url: 指向原发布网站的文章链接
dh_url: 指向DailyHunt上的文章链接

数据分割

每种语言随机抽取10,000篇文章用于验证和测试
至少80%的数据用于训练
若某语言文章少于100,000篇，其验证和测试集限制为其总量的10%
提供一个small训练集，包含每种语言最多100K篇文章，总计1.3M篇文章

数据重现

数据集可通过遵循提供的README文件进行重现，该文件位于GitHub仓库。

5,000+

优质数据集

54 个

任务类型

进入经典数据集