five

thinkedgeAI/hind-promo

收藏
Hugging Face2024-02-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/thinkedgeAI/hind-promo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过45,000行印地语数据,是训练和评估自然语言生成模型的重要资源,特别是在印地语领域。每行数据包含系统提示、问题文本、原始答案文本等字段。数据集对于研究人员、实践者和开发者探索印地语自然语言生成模型的能力至关重要,旨在促进印度本土语言的全球推广。

该数据集包含超过45,000行印地语数据,是训练和评估自然语言生成模型的重要资源,特别是在印地语领域。每行数据包含系统提示、问题文本、原始答案文本等字段。数据集对于研究人员、实践者和开发者探索印地语自然语言生成模型的能力至关重要,旨在促进印度本土语言的全球推广。
提供机构:
thinkedgeAI
原始信息汇总

数据集卡片:印地语叙事提示数据集

数据集概述

该数据集包含超过45,000行印地语数据,是训练和评估自然语言生成模型的宝贵资源,特别是在印地语领域。每行包含以下字段:

  • system_prompt:以印地语提供的详细提示,旨在指导叙事或解释的生成。
  • qas_id:每个问答对的唯一标识符。
  • question_text:用于生成叙事的提示或问题的文本。
  • orig_answer_texts:为叙事生成过程提供上下文或内容的原始文本。
  • answer_lengths:生成的答案或叙事的长度(目前未更新)。

该数据集对致力于探索印地语自然语言生成模型能力的研究人员、从业者和开发者至关重要。它为训练和评估能够生成连贯且上下文相关叙事或解释的模型奠定了基础。

潜在用途

  • 在印地语领域训练和评估自然语言生成模型。
  • 探索模型在叙事生成任务中的能力。
  • 进行印地语叙事理解和生成方面的研究。

对印度本土语言的重要性

该数据集符合我们推广印度本土语言的承诺。我们认识到此类数据集的有限可用性是印度本土社区创新的主要挑战。作为对印度开源社区的贡献,我们计划发布一个涵盖多种印度本土语言的大型数据库。这一举措旨在赋予研究人员、从业者和开发者探索和创新印度语言处理和生成任务的能力。

许可证

请参考数据集创建者提供的许可条款。

联系信息

如有关于此数据集的咨询或合作,请联系team@deepharbor.ai。

引用

如果您发现此数据集有用,请考虑引用相关论文或提供适当的致谢。

免责声明

数据集中的观点不一定反映数据集创建者的观点。用户应负责任地与数据互动,并根据自身风险承受能力行事。

本数据集卡片旨在全面介绍印地语叙事提示数据集,强调其重要性、潜在用途以及对印度语言处理社区的贡献。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作