five

ganeshjcs/hindi-headline-article-generation

收藏
Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ganeshjcs/hindi-headline-article-generation
下载链接
链接失效反馈
官方服务:
资源简介:
`hindi-headline-article-generation` 是一个开源数据集,源自 Hindi Text Short and Large Summarization 数据集,采用指令风格记录生成。该数据集是 Cohere For AI 的 Aya 开放科学计划的一部分,旨在确保印地语在 AI/ML 领域得到充分代表。数据集可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集包含印地语记录,结构包括 inputs、targets、template_id 和 template_lang 等字段。数据集在 CC BY-SA 4.0 许可下发布,可用于学术和商业用途。README 文件还提到了数据集的局限性,包括潜在的偏见和某些记录中可能包含的英语内容。
提供机构:
ganeshjcs
原始信息汇总

数据集概述

hindi-headline-article-generation 是一个由 Hindi Text Short and Large Summarization 数据集转换生成的 instruct-style 记录的开源数据集。该数据集由 Cohere For AI 的 Aya Open Science Initiative 创建。

数据集详情

  • 语言: 印地语
  • 版本: 1.0
  • 许可证: CC BY-SA 4.0
  • 数据量: 10K<n<100K
  • 任务类别: 文本生成
  • 任务ID: 语言建模
  • 多语言性: 单语种
  • 标签: 生成

数据字段

  • inputs: 语言模型的提示或输入
  • targets: 语言模型的完成或输出
  • template_id: 在 inputstargets 中使用的模板ID
  • template_lang: 在 inputstargets 中使用的语言的ISO代码,其中 hin 指印地语

模板

用于从原始数据集创建 instruct-style 提示和完成的模板类别及变体如下:

  1. 给定一个句子,生成一个意义相似的句子。

    template_id inputs targets
    0 यह शीर्षक है, इसके लिए एक लेख लिखें: {{Title}} यह एक लेख है: {{Article}}
    1 एक लेख लिखें जिसका शीर्षक इस प्रकार है: {Title}} लेख: {{Article}}
    2 एक लेख लिखें जिसका शीर्षक इस प्रकार है: {{Title}} {{Article}}
    3 एक लेख लिखें जिसका शीर्षक इस प्रकार है: {{Title}} दिए गए शीर्षक के अनुरूप एक पाठ यह हो सकता है: {{Article}}
    4 यह शीर्षक है, इसके लिए एक लेख लिखें: {{Title}} {{Article}}
    5 इसके लिए एक लेख लिखें: {{Title}} लेख: {{Article}}
    6 इस शीर्षक के साथ एक लेख लिखें: {{Title}} यह एक लेख है: {{Article}}
    7 इस शीर्षक के साथ एक लेख लिखें: {{Title}} दिए गए शीर्षक के अनुरूप एक पाठ यह हो सकता है: {{Article}}
    8 यह शीर्षक है, इसके लिए एक लेख लिखें: {{Title}} लेख: {{Article}}
    9 इसके लिए एक लेख लिखें: {{Title}} {{Article}}
    10 इसके लिए एक लेख लिखें: {{Title}} यह एक लेख है: {{Article}}
    11 इस शीर्षक के साथ एक लेख लिखें: {{Title}} लेख: {{Article}}
    12 इसके लिए एक लेख लिखें: {{Title}} दिए गए शीर्षक के अनुरूप एक पाठ यह हो सकता है: {{Article}}
    13 यह शीर्षक है, इसके लिए एक लेख लिखें: {{Title}} दिए गए शीर्षक के अनुरूप एक पाठ यह हो सकता है: {{Article}}
    14 एक लेख लिखें जिसका शीर्षक इस प्रकार है: {{Title}} यह एक लेख है: {{Article}}
    15 इस शीर्षक के साथ एक लेख लिखें: {{Title}} {{Article}}

已知限制

  • 该数据集是从现有数据集转换而来,内容可能反映出偏见、事实错误和敏感问题。
  • 尽管尽力保持数据集为单语种,但可能存在一些记录包含印地语和英语混合的情况。

贡献者

Ganesh Jagadeesan

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作