five

collabo-research/Moxin-sft-reasoning-dataset-en-32kfiltered-chat-format-sorted

收藏
Hugging Face2025-07-04 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/collabo-research/Moxin-sft-reasoning-dataset-en-32kfiltered-chat-format-sorted
下载链接
链接失效反馈
官方服务:
资源简介:
Token Length Sorted Dataset是一个从collabo-research/Moxin-sft-reasoning-dataset-en-32kfiltered-chat-format数据集处理而来的数据集,按照token长度排序。包含196807个样本,每个样本的token长度在382到30004之间,平均token长度为7243.42。数据集包含原始数据集中的所有列,以及一个额外的token_length列,表示每个prompt的token数量。

Token Length Sorted Dataset is a dataset processed from collabo-research/Moxin-sft-reasoning-dataset-en-32kfiltered-chat-format, sorted by token length. It contains 196807 samples, with each samples token length ranging from 382 to 30004, and an average token length of 7243.42. The dataset includes all columns from the original dataset, as well as an additional token_length column representing the number of tokens in each prompt.
提供机构:
collabo-research
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作