ganeshjcs/hindi-article-summarization
收藏Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ganeshjcs/hindi-article-summarization
下载链接
链接失效反馈官方服务:
资源简介:
`hindi-article-summarization`是一个开源数据集,包含从[Hindi Text Short and Large Summarization](https://www.kaggle.com/datasets/disisbig/hindi-text-short-and-large-summarization-corpus)数据集转换而来的指令风格记录。该数据集由Cohere For AI的[Aya Open Science Initiative](https://sites.google.com/cohere.com/aya-en/home)创建,旨在确保印地语在AI/ML领域得到充分代表。数据集可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集包含输入、目标和模板ID等字段,使用印地语,并且遵循CC BY-SA 4.0许可证。
提供机构:
ganeshjcs
原始信息汇总
数据集概述
hindi-article-summarization 是一个由 Hindi Text Short and Large Summarization 数据集转换生成的单语种(印地语)指令风格记录的开源数据集。该数据集由 Cohere For AI 的 Aya Open Science Initiative 创建。
数据集信息
- 语言: 印地语
- 许可证: CC BY-SA 4.0
- 数据集大小: 10K<n<100K
- 任务类型: 文本生成
- 任务子类别: 语言建模
数据集用途
该数据集适用于以下任务:
- 训练大型语言模型(LLMs)
- 合成数据生成
- 数据增强
数据字段
inputs: 语言模型的提示或输入targets: 语言模型的完成或输出template_id: 用于inputs和targets的模板IDtemplate_lang: 用于inputs和targets的语言ISO代码,其中hin指印地语
模板
数据集使用了以下模板类别及其变体来创建指令风格的提示和完成:
- 给定一个句子,生成一个意义相似的句子。
数据集加载
使用 datasets 库加载数据集的代码如下:
python
from datasets import load_dataset
ds = load_dataset(ganeshjcs/hindi-article-summarization)
数据集来源
数据集由 Hindi Text Short and Large Summarization Corpus 转换为指令风格提示和完成。
个人或敏感数据
该数据集包含公共信息,据我们所知,不包含私人个人的个人标识符或敏感信息。
已知限制
- 数据集内容可能反映原始数据集的偏见、事实错误和敏感问题。
- 尽管尽力保持数据集为单语种,但可能存在一些记录同时包含印地语和英语。



