rahular/varta

Name: rahular/varta
Creator: rahular
Published: 2023-10-23 20:17:02
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rahular/varta

下载链接

链接失效反馈

官方服务：

资源简介：

Varta是一个多样化、具有挑战性、大规模、多语言且高质量的标题生成数据集，包含14种印度语言和英语的4180万篇新闻文章。数据来源于DailyHunt，这是一个在印度流行的新闻聚合器，从多个可信和声誉良好的新闻出版商中提取高质量文章。数据集的结构包括唯一标识符、语言代码、文章URL、标题、发布日期、正文、标签、用户反应、原始出版商名称、文章字数等信息。数据集被随机分割为训练、验证和测试集，并提供了一个包含130万篇文章的小型训练集用于微调实验。

提供机构：

rahular

原始信息汇总

数据集描述

数据集概述

Varta是一个多样化的、具有挑战性的、大规模的、多语言的、高质量的标题生成数据集，包含4180万篇新闻文章，涵盖14种印度语言和英语。数据来源于DailyHunt，这是一个在印度广受欢迎的新闻聚合器，从多个可信和知名的新闻出版商那里获取高质量文章。

语言

数据集包含以下语言：

阿萨姆语 (Assamese)
博杰普尔语 (Bhojpuri)
孟加拉语 (Bengali)
英语 (English)
古吉拉特语 (Gujarati)
印地语 (Hindi)
卡纳达语 (Kannada)
马拉雅拉姆语 (Malayalam)
马拉地语 (Marathi)
尼泊尔语 (Nepali)
奥里亚语 (Oriya)
旁遮普语 (Punjabi)
泰米尔语 (Tamil)
泰卢固语 (Telugu)
乌尔都语 (Urdu)

数据集结构

数据字段

id: DailyHunt上文章的唯一标识符。
langCode: ISO 639-1语言代码。
source_url: 指向原始出版商网站上文章的URL。
dh_url: 指向DailyHunt上文章的URL。
headline: 文章的标题。
publication_date: 出版日期。
text: 文章的主体内容。
tags: 与文章相关的主要主题。
reactions: 用户点赞、点踩等。
source_media: 原始出版商名称。
word_count: 文章的字数。

数据分割

从每种语言中，我们随机抽取10,000篇文章用于验证和测试。我们还确保至少80%的语言数据可用于训练。因此，如果一种语言的文章少于100,000篇，我们将其验证和测试分割限制为其大小的10%。

我们还创建了一个small训练集，通过将每种语言的文章数量限制在100,000篇。这个small训练集大小为130万，用于我们所有的微调实验。

数据重现

要重现数据集，请遵循README文件中的说明。

许可证

数据集的许可证为CC-BY 4.0。

引用信息

@misc{aralikatte2023varta, title={V=arta: A Large-Scale Headline-Generation Dataset for Indic Languages}, author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung}, year={2023}, eprint={2305.05858}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集