rahular/varta
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/varta
下载链接
链接失效反馈官方服务:
资源简介:
Varta是一个多样化、具有挑战性、大规模、多语言且高质量的标题生成数据集,包含14种印度语言和英语的4180万篇新闻文章。数据来源于DailyHunt,这是一个在印度流行的新闻聚合器,从多个可信和声誉良好的新闻出版商中提取高质量文章。数据集的结构包括唯一标识符、语言代码、文章URL、标题、发布日期、正文、标签、用户反应、原始出版商名称、文章字数等信息。数据集被随机分割为训练、验证和测试集,并提供了一个包含130万篇文章的小型训练集用于微调实验。
提供机构:
rahular
原始信息汇总
数据集描述
数据集概述
Varta是一个多样化的、具有挑战性的、大规模的、多语言的、高质量的标题生成数据集,包含4180万篇新闻文章,涵盖14种印度语言和英语。数据来源于DailyHunt,这是一个在印度广受欢迎的新闻聚合器,从多个可信和知名的新闻出版商那里获取高质量文章。
语言
数据集包含以下语言:
- 阿萨姆语 (Assamese)
- 博杰普尔语 (Bhojpuri)
- 孟加拉语 (Bengali)
- 英语 (English)
- 古吉拉特语 (Gujarati)
- 印地语 (Hindi)
- 卡纳达语 (Kannada)
- 马拉雅拉姆语 (Malayalam)
- 马拉地语 (Marathi)
- 尼泊尔语 (Nepali)
- 奥里亚语 (Oriya)
- 旁遮普语 (Punjabi)
- 泰米尔语 (Tamil)
- 泰卢固语 (Telugu)
- 乌尔都语 (Urdu)
数据集结构
数据字段
- id: DailyHunt上文章的唯一标识符。
- langCode: ISO 639-1语言代码。
- source_url: 指向原始出版商网站上文章的URL。
- dh_url: 指向DailyHunt上文章的URL。
- headline: 文章的标题。
- publication_date: 出版日期。
- text: 文章的主体内容。
- tags: 与文章相关的主要主题。
- reactions: 用户点赞、点踩等。
- source_media: 原始出版商名称。
- word_count: 文章的字数。
数据分割
从每种语言中,我们随机抽取10,000篇文章用于验证和测试。我们还确保至少80%的语言数据可用于训练。因此,如果一种语言的文章少于100,000篇,我们将其验证和测试分割限制为其大小的10%。
我们还创建了一个small训练集,通过将每种语言的文章数量限制在100,000篇。这个small训练集大小为130万,用于我们所有的微调实验。
数据重现
要重现数据集,请遵循README文件中的说明。
许可证
数据集的许可证为CC-BY 4.0。
引用信息
@misc{aralikatte2023varta, title={V=arta: A Large-Scale Headline-Generation Dataset for Indic Languages}, author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung}, year={2023}, eprint={2305.05858}, archivePrefix={arXiv}, primaryClass={cs.CL} }



