five

PatompongBig/text-to-gloss_ver6

收藏
Hugging Face2025-12-07 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/PatompongBig/text-to-gloss_ver6
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: index dtype: int64 - name: messages list: - name: content dtype: string - name: role dtype: string - name: text_raw dtype: string - name: text_sign dtype: string - name: is_multiturn dtype: bool - name: predicted_gloss dtype: string splits: - name: sft_train num_bytes: 4263329 num_examples: 1500 - name: sft_eval num_bytes: 1118085 num_examples: 400 - name: grpo_train num_bytes: 1135231 num_examples: 400 - name: grpo_eval num_bytes: 243932 num_examples: 88 - name: test num_bytes: 342652 num_examples: 299 download_size: 978998 dataset_size: 7103229 configs: - config_name: default data_files: - split: sft_train path: data/sft_train-* - split: sft_eval path: data/sft_eval-* - split: grpo_train path: data/grpo_train-* - split: grpo_eval path: data/grpo_eval-* - split: test path: data/test-* ---

dataset_info: 特征: - 名称: 索引(index) 数据类型: int64 - 名称: 消息列表(messages) 类型: 列表 子字段: - 名称: 内容(content) 数据类型: 字符串 - 名称: 角色(role) 数据类型: 字符串 - 名称: 原始文本(text_raw) 数据类型: 字符串 - 名称: 文本标识(text_sign) 数据类型: 字符串 - 名称: 多轮标记(is_multiturn) 数据类型: 布尔值 - 名称: 预测释义(predicted_gloss) 数据类型: 字符串 划分集: - 名称: 监督微调训练集(sft_train) 字节数: 4263329 样本数量: 1500 - 名称: 监督微调验证集(sft_eval) 字节数: 1118085 样本数量: 400 - 名称: GRPO训练集(grpo_train) 字节数: 1135231 样本数量: 400 - 名称: GRPO验证集(grpo_eval) 字节数: 243932 样本数量: 88 - 名称: 测试集(test) 字节数: 342652 样本数量: 299 下载大小: 978998 数据集总大小: 7103229 configs: 配置项: - 配置名称: 默认配置(default) 数据文件: - 划分集: sft_train 路径: data/sft_train-* - 划分集: sft_eval 路径: data/sft_eval-* - 划分集: grpo_train 路径: data/grpo_train-* - 划分集: grpo_eval 路径: data/grpo_eval-* - 划分集: test 路径: data/test-*
提供机构:
PatompongBig
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作