osieosie/tulu-aya-filtered-v4
收藏Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/osieosie/tulu-aya-filtered-v4
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: source
dtype: string
- name: user_tokens
dtype: int64
- name: assistant_tokens
dtype: int64
splits:
- name: train
num_bytes: 908397
num_examples: 473
download_size: 451748
dataset_size: 908397
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征项:
1. 标识符字段:字段名为`id`,数据类型为字符串(string)
2. 对话消息列表:字段名为`messages`,为列表类型,列表内每条元素包含两个子字段:
- 内容子字段:字段名为`content`,数据类型为字符串(string)
- 角色子字段:字段名为`role`,数据类型为字符串(string)
3. 数据来源字段:字段名为`source`,数据类型为字符串(string)
4. 用户Token计数字段:字段名为`user_tokens`,数据类型为64位整型(int64)
5. 助手Token计数字段:字段名为`assistant_tokens`,数据类型为64位整型(int64)
数据集划分:
- 训练集:划分名称为`train`,占用字节数为908397,共包含473条样本
下载大小:451748字节
数据集总大小:908397字节
数据集配置:
- 默认配置:配置名称为`default`,数据文件配置为:训练划分对应的数据文件路径为`data/train-*`
提供机构:
osieosie



