aya_dataset_english_example
收藏魔搭社区2025-12-05 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/data-is-better-together/aya_dataset_english_example
下载链接
链接失效反馈官方服务:
资源简介:
dataset_info:
features:
- name: inputs
dtype: string
- name: targets
dtype: string
- name: language
dtype: string
- name: language_code
dtype: string
- name: annotation_type
dtype: string
- name: user_id
dtype: string
splits:
- name: train
num_bytes: 4836140.556250679
num_examples: 3844
- name: test
num_bytes: 125810.10812306659
num_examples: 100
download_size: 1606520
dataset_size: 4961950.664373746
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
license: apache-2.0
task_categories:
- text-generation
language:
- en
tags:
- sft
size_categories:
- 1K<n<10K
---
数据集信息:
特征字段:
- 输入(inputs):字符串类型
- 目标(targets):字符串类型
- 语言(language):字符串类型
- 语言代码(language_code):字符串类型
- 标注类型(annotation_type):字符串类型
- 用户ID(user_id):字符串类型
数据集拆分:
- 训练集(train):占用字节数4836140.556250679,样本总数3844
- 测试集(test):占用字节数125810.10812306659,样本总数100
下载总大小:1606520,数据集总存储大小:4961950.664373746
数据集配置:
- 默认配置(default):数据文件配置如下
- 训练集划分:路径为data/train-*
- 测试集划分:路径为data/test-*
许可证:Apache-2.0协议
任务类别:文本生成(text-generation)
覆盖语言:英语(en)
标签:监督微调(SFT)
样本规模类别:1千样本<样本数<1万样本
提供机构:
maas
创建时间:
2025-07-10



