cosmoquester/synthetic-sorting

Name: cosmoquester/synthetic-sorting
Creator: cosmoquester
Published: 2024-06-28 06:50:57
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/cosmoquester/synthetic-sorting

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的排序数据集，用于评估模型在排序任务上的性能。数据集通过随机打乱数字并根据预定义的概率分布生成，任务是将数字按升序排序。数据集包含多个配置（1k, 2k, 4k, 8k, 16k, 32k, 48k），每个配置都有训练、验证和测试集。数据集的特征包括`prompt_ids`（打乱的数字序列）和`target_ids`（排序后的数字序列）。数据集使用了21个符号，其中0到19表示数字，20表示序列结束。

This dataset is a synthetic sorting dataset used to evaluate the models performance on sorting tasks. The dataset is generated by randomly shuffling numbers according to a predefined probability distribution, and the task is to sort the numbers in ascending order. The dataset includes multiple configurations (1k, 2k, 4k, 8k, 16k, 32k, 48k), each with training, validation, and test sets. The features of the dataset include `prompt_ids` (shuffled sequence of numbers) and `target_ids` (sorted sequence of numbers). The dataset uses 21 symbols, where 0 to 19 represent numbers and 20 represents the end of the sequence.

提供机构：

cosmoquester

原始信息汇总

Synthetic Sorting Dataset

概述

该数据集是通过随机打乱数字并根据预定义的概率分布生成的，任务是将数字按升序排序。数据集用于评估模型在排序任务中的性能。

数据集配置

数据集包含多个配置，每个配置对应不同的数据量和文件路径。

配置列表

16k
1k
2k
32k
48k
4k
8k

特征

每个配置包含以下特征：

prompt_ids: 打乱的数字序列，类型为 int64。
target_ids: 按出现顺序排序的数字序列，类型为 int64。

数据分割

每个配置包含以下数据分割：

train: 训练集
validation: 验证集
test: 测试集

数据量

每个配置的数据量如下：

train: 80000个样本
validation: 800个样本
test: 800个样本

数据大小

每个配置的数据大小如下：

16k:
- 下载大小: 819937813字节
- 数据集大小: 10459161600字节
1k:
- 下载大小: 52353265字节
- 数据集大小: 667161600字节
2k:
- 下载大小: 103528092字节
- 数据集大小: 1319961600字节
32k:
- 下载大小: 1638675864字节
- 数据集大小: 20903961600字节
48k:
- 下载大小: 2457462216字节
- 数据集大小: 31348761600字节
4k:
- 下载大小: 205870968字节
- 数据集大小: 2625561600字节
8k:
- 下载大小: 410561253字节
- 数据集大小: 5236761600字节

数据文件路径

每个配置的数据文件路径如下：

16k:
- train: 16k/train-*
- validation: 16k/validation-*
- test: 16k/test-*
1k:
- train: 1k/train-*
- validation: 1k/validation-*
- test: 1k/test-*
2k:
- train: 2k/train-*
- validation: 2k/validation-*
- test: 2k/test-*
32k:
- train: 32k/train-*
- validation: 32k/validation-*
- test: 32k/test-*
48k:
- train: 48k/train-*
- validation: 48k/validation-*
- test: 48k/test-*
4k:
- train: 4k/train-*
- validation: 4k/validation-*
- test: 4k/test-*
8k:
- train: 8k/train-*
- validation: 8k/validation-*
- test: 8k/test-*

该数据集通过依据预设的数字概率分布随机打乱序列生成，任务目标是将序列按升序排列。数据集的构建脚本源自deep-spin/infinite-former项目，旨在生成更长的序列长度和更多的样本。数据集共使用21个token，符号范围为0至19，最后一个token“20”作为序列结束标志，因此模型词汇表大小为21。每个配置（如1k、2k等）均包含80,000个训练样本、800个验证样本和800个测试样本，序列长度与配置名称对应。

特点

数据集的核心特点在于其层次化的序列长度配置，涵盖从1k到48k的七种规模，为评估模型在不同长度序列上的排序能力提供了丰富资源。每个样本的prompt_ids列是包含结束token的打乱序列，而target_ids列则是按出现次数排序的序列，每个token仅出现一次，总长度为20。这种设计使得数据集特别适合用于测试模型在长序列排序任务上的性能，且已被用于Memoria研究（ICML 2024 Spotlight）中。

使用方法

使用该数据集极为简便，通过HuggingFace的datasets库即可加载。用户只需调用`datasets.load_dataset("cosmoquester/synthetic-sorting", "1k")`并指定配置名称（如1k、2k等），即可获取对应规模的训练、验证和测试集。加载后的数据集包含prompt_ids和target_ids两个特征，可直接用于序列排序任务的模型训练与评估。数据集的标准化格式确保了与主流深度学习框架的无缝集成。

背景与挑战

背景概述

在自然语言处理与序列建模领域，排序任务作为评估模型对序列中元素间关系理解与重排能力的经典基准，长期受到研究者的关注。cosmoquester/synthetic-sorting数据集由研究者于2023年创建，其核心研究问题在于探究模型能否基于随机打乱的数字序列，通过捕捉数字出现的概率分布，准确还原出升序排列。该数据集依托于deep-spin/infinite-former的生成脚本，通过精心设计的合成方式，为长序列排序任务提供了标准化评估平台。该数据集在ICML 2024 Spotlight论文《Memoria》中被采用，用以验证模型在排序任务上的性能表现，其影响力体现在为长上下文建模与序列重排研究提供了可复现的测试基准，推动了相关领域对模型序列理解能力的深入评估。

当前挑战

该数据集所解决的领域挑战在于，排序任务要求模型不仅理解序列中元素的局部顺序，更要掌握全局的数值分布与排列规则，这对于捕捉长距离依赖关系的模型而言，是一个严峻的考验。构建过程中的挑战主要体现在数据生成的规模与多样性平衡上：需要确保随机打乱的序列能够覆盖所有可能的排列模式，同时维持数字出现概率的均匀分布，以避免模型学习到非预期的统计偏差。此外，为适应不同长度的评估需求，数据集提供了从1k到48k的多种序列长度配置，这要求在生成时精确控制序列长度与标记数量，并保证训练、验证与测试集之间的一致性，从而为模型的泛化能力评估提供可靠基础。

常用场景

经典使用场景

在序列建模与长程依赖关系学习的研究领域中，排序任务作为一项基础而富有挑战性的基准，常被用于评估模型对有序信息的处理能力。Synthetic Sorting数据集通过将0至19的数字序列随机打乱并附加结束符，要求模型输出按升序排列的结果，从而构建了一个清晰且可扩展的评测范式。该数据集提供了从1k到48k多种长度的配置，使得研究者能够系统性地考察模型在不同序列规模下的排序准确率与泛化表现，尤其适用于检验Transformer及其变体在长序列上的结构化推理能力。

衍生相关工作

Synthetic Sorting数据集最直接且重要的衍生工作当属其在Memoria（ICML 2024 Spotlight）研究中的核心应用。Memoria提出了一种新型的线性注意力机制，旨在克服传统Transformer在处理超长序列时面临的二次复杂度瓶颈，而该数据集作为关键评测基准，直观地证明了Memoria在排序任务上相较于基线模型的显著优势。此外，该数据集的设计理念也启发了后续对状态空间模型（如Mamba）及长上下文Transformer架构的改进研究，促使学术界在合成排序任务上建立了一套标准化的评估协议，用以验证各类创新模型的结构化推理与记忆检索能力。

数据集最近研究