five

ganeshjcs/hindi-article-summarization

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ganeshjcs/hindi-article-summarization
下载链接
链接失效反馈
官方服务:
资源简介:
`hindi-article-summarization`是一个开源数据集,包含从[Hindi Text Short and Large Summarization](https://www.kaggle.com/datasets/disisbig/hindi-text-short-and-large-summarization-corpus)数据集转换而来的指令风格记录。该数据集由Cohere For AI的[Aya Open Science Initiative](https://sites.google.com/cohere.com/aya-en/home)创建,旨在确保印地语在AI/ML领域得到充分代表。数据集可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集包含输入、目标和模板ID等字段,使用印地语,并且遵循CC BY-SA 4.0许可证。
提供机构:
ganeshjcs
原始信息汇总

数据集概述

hindi-article-summarization 是一个由 Hindi Text Short and Large Summarization 数据集转换生成的单语种(印地语)指令风格记录的开源数据集。该数据集由 Cohere For AI 的 Aya Open Science Initiative 创建。

数据集信息

  • 语言: 印地语
  • 许可证: CC BY-SA 4.0
  • 数据集大小: 10K<n<100K
  • 任务类型: 文本生成
  • 任务子类别: 语言建模

数据集用途

该数据集适用于以下任务:

  • 训练大型语言模型(LLMs)
  • 合成数据生成
  • 数据增强

数据字段

  • inputs: 语言模型的提示或输入
  • targets: 语言模型的完成或输出
  • template_id: 用于 inputstargets 的模板ID
  • template_lang: 用于 inputstargets 的语言ISO代码,其中 hin 指印地语

模板

数据集使用了以下模板类别及其变体来创建指令风格的提示和完成:

  1. 给定一个句子,生成一个意义相似的句子。

数据集加载

使用 datasets 库加载数据集的代码如下: python from datasets import load_dataset ds = load_dataset(ganeshjcs/hindi-article-summarization)

数据集来源

数据集由 Hindi Text Short and Large Summarization Corpus 转换为指令风格提示和完成。

个人或敏感数据

该数据集包含公共信息,据我们所知,不包含私人个人的个人标识符或敏感信息。

已知限制

  • 数据集内容可能反映原始数据集的偏见、事实错误和敏感问题。
  • 尽管尽力保持数据集为单语种,但可能存在一些记录同时包含印地语和英语。

贡献者

Ganesh Jagadeesan

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作