Shafagh/aya_persian_instruction_pn-summary
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shafagh/aya_persian_instruction_pn-summary
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: inputs
dtype: string
- name: targets
dtype: string
- name: template_lang
sequence: string
- name: template_id
dtype: int64
splits:
- name: train
num_bytes: 277006335
num_examples: 82022
- name: validation
num_bytes: 19104829
num_examples: 5592
- name: test
num_bytes: 18729011
num_examples: 5593
download_size: 142457276
dataset_size: 314840175
---
# Dataset Card for "aya_persian_instruction_pn-summary"
# Summary
aya_persian_instruction_pn-summary is an open source dataset of instruct-style records generated from [pn-summary](https://huggingface.co/datasets/pn_summary) dataset.
pn-summary is a Persian summarization dataset and here we transformed it to prompt-completion style to be used in the [Aya project](https://sites.google.com/cohere.com/aya-en/home) from Cohere For AI.
# Templates
For the creation of instruct-style prompts and completions from the original dataset, the following templates were used:
- Given a text, generate a summary for it.
| template_id | inputs | targets |
|-------------|--------|---------|
| 1 | ```متن زیر را خلاصه کنید:\n{{Original Text}}``` | ```{{Original Summary}}``` |
| 2 | ```برای متن زیر یک خلاصه بنویسید:\n{Original Text}}``` | ```{{Original Summary}}``` |
| 3 | ```یک یا چند جمله به عنوان خلاصه متن زیر بنویسید:\n{Original Text}}``` | ```{{Original Summary}}``` |
# Language
Persian
# Licensing Information
This dataset is licensed under MIT License.
aya_persian_instruction_pn-summary is an open source dataset of instruct-style records generated from the Persian summarization dataset pn-summary. This dataset is transformed into prompt-completion style for use in the Aya project from Cohere For AI. It includes features such as inputs, targets, template language, and template ID, and is divided into train, validation, and test splits. The dataset is in Persian and is licensed under the MIT License.
提供机构:
Shafagh
原始信息汇总
数据集概述
数据集名称
aya_persian_instruction_pn-summary
数据集描述
aya_persian_instruction_pn-summary 是一个开源数据集,由 pn-summary 数据集生成的 instruct-style 记录。pn-summary 是一个波斯语摘要数据集,这里我们将其转换为 prompt-completion 风格,以便在 Aya 项目 中使用。
数据集模板
为了从原始数据集创建 instruct-style 的 prompts 和 completions,使用了以下模板:
- 给定一个文本,生成其摘要。
| template_id | inputs | targets |
|---|---|---|
| 1 | متن زیر را خلاصه کنید: | |
| {{Original Text}} | {{Original Summary}} | |
| 2 | برای متن زیر یک خلاصه بنویسید: | |
| {Original Text}} | {{Original Summary}} | |
| 3 | یک یا چند جمله به عنوان خلاصه متن زیر بنویسید: | |
| {Original Text}} | {{Original Summary}} |
语言
波斯语
许可信息
该数据集基于 MIT 许可证。
数据集配置
- 默认配置
- 数据文件
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
- 数据文件
数据集信息
-
特征
- inputs:字符串类型
- targets:字符串类型
- template_lang:字符串序列
- template_id:int64 类型
-
分割
- 训练集
- 字节数:277006335
- 样本数:82022
- 验证集
- 字节数:19104829
- 样本数:5592
- 测试集
- 字节数:18729011
- 样本数:5593
- 训练集
-
下载大小:142457276 字节
-
数据集大小:314840175 字节
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



