five

Shafagh/aya_persian_instruction_pn-summary

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shafagh/aya_persian_instruction_pn-summary
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: inputs dtype: string - name: targets dtype: string - name: template_lang sequence: string - name: template_id dtype: int64 splits: - name: train num_bytes: 277006335 num_examples: 82022 - name: validation num_bytes: 19104829 num_examples: 5592 - name: test num_bytes: 18729011 num_examples: 5593 download_size: 142457276 dataset_size: 314840175 --- # Dataset Card for "aya_persian_instruction_pn-summary" # Summary aya_persian_instruction_pn-summary is an open source dataset of instruct-style records generated from [pn-summary](https://huggingface.co/datasets/pn_summary) dataset. pn-summary is a Persian summarization dataset and here we transformed it to prompt-completion style to be used in the [Aya project](https://sites.google.com/cohere.com/aya-en/home) from Cohere For AI. # Templates For the creation of instruct-style prompts and completions from the original dataset, the following templates were used: - Given a text, generate a summary for it. | template_id | inputs | targets | |-------------|--------|---------| | 1 | ```متن زیر را خلاصه کنید:\n{{Original Text}}``` | ```{{Original Summary}}``` | | 2 | ```برای متن زیر یک خلاصه بنویسید:\n{Original Text}}``` | ```{{Original Summary}}``` | | 3 | ```یک یا چند جمله به عنوان خلاصه متن زیر بنویسید:\n{Original Text}}``` | ```{{Original Summary}}``` | # Language Persian # Licensing Information This dataset is licensed under MIT License.

aya_persian_instruction_pn-summary is an open source dataset of instruct-style records generated from the Persian summarization dataset pn-summary. This dataset is transformed into prompt-completion style for use in the Aya project from Cohere For AI. It includes features such as inputs, targets, template language, and template ID, and is divided into train, validation, and test splits. The dataset is in Persian and is licensed under the MIT License.
提供机构:
Shafagh
原始信息汇总

数据集概述

数据集名称

aya_persian_instruction_pn-summary

数据集描述

aya_persian_instruction_pn-summary 是一个开源数据集,由 pn-summary 数据集生成的 instruct-style 记录。pn-summary 是一个波斯语摘要数据集,这里我们将其转换为 prompt-completion 风格,以便在 Aya 项目 中使用。

数据集模板

为了从原始数据集创建 instruct-style 的 prompts 和 completions,使用了以下模板:

  • 给定一个文本,生成其摘要。
template_id inputs targets
1 متن زیر را خلاصه کنید:
{{Original Text}} {{Original Summary}}
2 برای متن زیر یک خلاصه بنویسید:
{Original Text}} {{Original Summary}}
3 یک یا چند جمله به عنوان خلاصه متن زیر بنویسید:
{Original Text}} {{Original Summary}}

语言

波斯语

许可信息

该数据集基于 MIT 许可证。

数据集配置

  • 默认配置
    • 数据文件
      • 训练集:路径为 data/train-*
      • 验证集:路径为 data/validation-*
      • 测试集:路径为 data/test-*

数据集信息

  • 特征

    • inputs:字符串类型
    • targets:字符串类型
    • template_lang:字符串序列
    • template_id:int64 类型
  • 分割

    • 训练集
      • 字节数:277006335
      • 样本数:82022
    • 验证集
      • 字节数:19104829
      • 样本数:5592
    • 测试集
      • 字节数:18729011
      • 样本数:5593
  • 下载大小:142457276 字节

  • 数据集大小:314840175 字节

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作