PatompongBig/text-to-gloss_ver6
收藏Hugging Face2025-12-07 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/PatompongBig/text-to-gloss_ver6
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: index
dtype: int64
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: text_raw
dtype: string
- name: text_sign
dtype: string
- name: is_multiturn
dtype: bool
- name: predicted_gloss
dtype: string
splits:
- name: sft_train
num_bytes: 4263329
num_examples: 1500
- name: sft_eval
num_bytes: 1118085
num_examples: 400
- name: grpo_train
num_bytes: 1135231
num_examples: 400
- name: grpo_eval
num_bytes: 243932
num_examples: 88
- name: test
num_bytes: 342652
num_examples: 299
download_size: 978998
dataset_size: 7103229
configs:
- config_name: default
data_files:
- split: sft_train
path: data/sft_train-*
- split: sft_eval
path: data/sft_eval-*
- split: grpo_train
path: data/grpo_train-*
- split: grpo_eval
path: data/grpo_eval-*
- split: test
path: data/test-*
---
dataset_info:
特征:
- 名称: 索引(index)
数据类型: int64
- 名称: 消息列表(messages)
类型: 列表
子字段:
- 名称: 内容(content)
数据类型: 字符串
- 名称: 角色(role)
数据类型: 字符串
- 名称: 原始文本(text_raw)
数据类型: 字符串
- 名称: 文本标识(text_sign)
数据类型: 字符串
- 名称: 多轮标记(is_multiturn)
数据类型: 布尔值
- 名称: 预测释义(predicted_gloss)
数据类型: 字符串
划分集:
- 名称: 监督微调训练集(sft_train)
字节数: 4263329
样本数量: 1500
- 名称: 监督微调验证集(sft_eval)
字节数: 1118085
样本数量: 400
- 名称: GRPO训练集(grpo_train)
字节数: 1135231
样本数量: 400
- 名称: GRPO验证集(grpo_eval)
字节数: 243932
样本数量: 88
- 名称: 测试集(test)
字节数: 342652
样本数量: 299
下载大小: 978998
数据集总大小: 7103229
configs:
配置项:
- 配置名称: 默认配置(default)
数据文件:
- 划分集: sft_train
路径: data/sft_train-*
- 划分集: sft_eval
路径: data/sft_eval-*
- 划分集: grpo_train
路径: data/grpo_train-*
- 划分集: grpo_eval
路径: data/grpo_eval-*
- 划分集: test
路径: data/test-*
提供机构:
PatompongBig



