ganeshjcs/hindi-article-summarization

Name: ganeshjcs/hindi-article-summarization
Creator: ganeshjcs
Published: 2024-01-29 21:29:39
License: 暂无描述

Hugging Face2024-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ganeshjcs/hindi-article-summarization

下载链接

链接失效反馈

官方服务：

资源简介：

`hindi-article-summarization`是一个开源数据集，包含从[Hindi Text Short and Large Summarization](https://www.kaggle.com/datasets/disisbig/hindi-text-short-and-large-summarization-corpus)数据集转换而来的指令风格记录。该数据集由Cohere For AI的[Aya Open Science Initiative](https://sites.google.com/cohere.com/aya-en/home)创建，旨在确保印地语在AI/ML领域得到充分代表。数据集可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集包含输入、目标和模板ID等字段，使用印地语，并且遵循CC BY-SA 4.0许可证。

提供机构：

ganeshjcs

原始信息汇总

数据集概述

hindi-article-summarization 是一个由 Hindi Text Short and Large Summarization 数据集转换生成的单语种（印地语）指令风格记录的开源数据集。该数据集由 Cohere For AI 的 Aya Open Science Initiative 创建。

数据集信息

语言: 印地语
许可证: CC BY-SA 4.0
数据集大小: 10K<n<100K
任务类型: 文本生成
任务子类别: 语言建模

数据集用途

该数据集适用于以下任务：

训练大型语言模型（LLMs）
合成数据生成
数据增强

数据字段

inputs: 语言模型的提示或输入
targets: 语言模型的完成或输出
template_id: 用于 inputs 和 targets 的模板ID
template_lang: 用于 inputs 和 targets 的语言ISO代码，其中 hin 指印地语

模板

数据集使用了以下模板类别及其变体来创建指令风格的提示和完成：

给定一个句子，生成一个意义相似的句子。

数据集加载

使用 datasets 库加载数据集的代码如下： python from datasets import load_dataset ds = load_dataset(ganeshjcs/hindi-article-summarization)

数据集来源

数据集由 Hindi Text Short and Large Summarization Corpus 转换为指令风格提示和完成。

个人或敏感数据

该数据集包含公共信息，据我们所知，不包含私人个人的个人标识符或敏感信息。

已知限制

数据集内容可能反映原始数据集的偏见、事实错误和敏感问题。
尽管尽力保持数据集为单语种，但可能存在一些记录同时包含印地语和英语。

贡献者

Ganesh Jagadeesan

5,000+

优质数据集

54 个

任务类型

进入经典数据集