five

rahular/varta

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/varta
下载链接
链接失效反馈
官方服务:
资源简介:
Varta是一个多样化、具有挑战性、大规模、多语言且高质量的标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据来源于DailyHunt,这是一个在印度流行的新闻聚合器,从多个可信和声誉良好的新闻出版商中提取高质量文章。数据集的结构包括唯一标识符、语言代码、文章URL、标题、发布日期、正文、标签、用户反应、原始出版商名称、文章字数等信息。数据集被随机分割为训练、验证和测试集,并提供了一个包含130万篇文章的小型训练集用于微调实验。
提供机构:
rahular
原始信息汇总

数据集描述

数据集概述

Varta是一个多样化的、具有挑战性的、大规模的、多语言的、高质量的标题生成数据集,包含4180万篇新闻文章,涵盖14种印度语言和英语。数据来源于DailyHunt,这是一个在印度广受欢迎的新闻聚合器,从多个可信和知名的新闻出版商那里获取高质量文章。

语言

数据集包含以下语言:

  • 阿萨姆语 (Assamese)
  • 博杰普尔语 (Bhojpuri)
  • 孟加拉语 (Bengali)
  • 英语 (English)
  • 古吉拉特语 (Gujarati)
  • 印地语 (Hindi)
  • 卡纳达语 (Kannada)
  • 马拉雅拉姆语 (Malayalam)
  • 马拉地语 (Marathi)
  • 尼泊尔语 (Nepali)
  • 奥里亚语 (Oriya)
  • 旁遮普语 (Punjabi)
  • 泰米尔语 (Tamil)
  • 泰卢固语 (Telugu)
  • 乌尔都语 (Urdu)

数据集结构

数据字段

  • id: DailyHunt上文章的唯一标识符。
  • langCode: ISO 639-1语言代码。
  • source_url: 指向原始出版商网站上文章的URL。
  • dh_url: 指向DailyHunt上文章的URL。
  • headline: 文章的标题。
  • publication_date: 出版日期。
  • text: 文章的主体内容。
  • tags: 与文章相关的主要主题。
  • reactions: 用户点赞、点踩等。
  • source_media: 原始出版商名称。
  • word_count: 文章的字数。

数据分割

从每种语言中,我们随机抽取10,000篇文章用于验证和测试。我们还确保至少80%的语言数据可用于训练。因此,如果一种语言的文章少于100,000篇,我们将其验证和测试分割限制为其大小的10%。

我们还创建了一个small训练集,通过将每种语言的文章数量限制在100,000篇。这个small训练集大小为130万,用于我们所有的微调实验。

数据重现

要重现数据集,请遵循README文件中的说明。

许可证

数据集的许可证为CC-BY 4.0。

引用信息

@misc{aralikatte2023varta, title={V=arta: A Large-Scale Headline-Generation Dataset for Indic Languages}, author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung}, year={2023}, eprint={2305.05858}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作