KoLMogorov-Test数据集
收藏github2025-03-17 更新2025-03-23 收录
下载链接:
https://github.com/facebookresearch/KoLMogorov
下载链接
链接失效反馈官方服务:
资源简介:
KoLMogorov-Test数据集包括六种模态:文本、DNA、音频数据(MFCC、16位和8位编码)以及由随机程序生成的合成序列。数据集有两种大小:每种模态1MB的小数据集,以及仅包含DNA和文本的1GB大数据集。
The KoLMogorov-Test Dataset includes six modalities: text, DNA, audio data (MFCC, 16-bit and 8-bit encodings), and synthetic sequences generated by random programs. The dataset has two size variants: a small version with 1 MB per modality, and a large 1 GB version that only contains DNA and text modalities.
创建时间:
2025-03-06
原始信息汇总
数据集概述
数据集名称
The KoLMogorov-Test
数据集简介
The KoLMogorov-Test (KT) 旨在通过编写输出序列的短程序,评估代码生成模型(CodeLMs)在检测和压缩序列中的模式的能力。该数据集基于Kolmogorov复杂度的概念,即生成序列的最短计算机程序的长度。
数据集内容
- 数据类型:包括文本、DNA、音频数据(MFCC、16-bit、8-bit)以及由随机程序生成的合成序列。
- 数据集规模:提供两种规模的数据集:
- 小型数据集:每种模态1MB。
- 大型数据集:仅包含DNA和文本,每种模态1GB。
数据集获取
- 数据集下载地址:下载数据
实验与评估
- 实验代码:提供了运行论文中实验的源代码,包括如何使用提示模型进行推理以及如何训练专门的SeqCoder模型。
- 实验代码地址:实验源代码
- 评估方法:主要评估指标是编码程序和相应解码器的压缩率。
合成数据生成
- 合成数据生成:提供了用于生成合成数据的领域特定语言(DSL)和数据生成脚本。
- 合成数据生成代码地址:合成数据生成源代码
引用
bibtex @inproceedings{ anonymous2024the, title={The Ko{LM}ogorov Test: Compression by Code Generation}, author={Anonymous}, booktitle={Submitted to The Thirteenth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=C45YqeBDUM}, note={under review} }
许可
- 该仓库中的大部分代码遵循CC-by-NC许可,但第三方代码/文件可能遵循不同的许可协议。
搜集汇总
数据集介绍

构建方式
KoLMogorov-Test数据集的构建基于多模态数据的压缩与代码生成,旨在评估代码生成模型(CodeLMs)在检测序列模式并生成短程序以输出这些序列的能力。数据集涵盖六种模态,包括文本、DNA、音频数据的三种编码(MFCC、16位和8位)以及由随机程序生成的合成序列。数据集分为小规模(每种模态1MB)和大规模(仅DNA和文本,每种1GB),通过程序-序列对的采样生成合成数据,并提供了专门的领域特定语言(DSL)和数据生成脚本。
特点
KoLMogorov-Test数据集的特点在于其多模态性和多样性,涵盖了从自然语言到生物信息学再到音频处理的广泛领域。数据集不仅包含真实世界的数据,还通过随机程序生成合成序列,为模型提供了丰富的训练和测试场景。此外,数据集的设计旨在评估模型的压缩能力,通过生成短程序输出序列,直接衡量模型的编码效率和模式识别能力。这种设计使得数据集在评估代码生成模型的性能方面具有独特优势。
使用方法
使用KoLMogorov-Test数据集时,用户首先需下载数据并选择适合的模态和规模。数据集支持通过提示模型进行推理,并提供专门的SeqCoder模型训练方法。用户可通过运行实验代码进行模型训练和推理,并通过压缩率和解码器的性能评估模型表现。数据集还提供了合成数据生成脚本,用户可根据需求生成特定分布的序列数据。所有实验和评估结果可通过官方排行榜进行提交和比较。
背景与挑战
背景概述
KoLMogorov-Test数据集由匿名研究团队于2024年提出,旨在通过代码生成的方式评估序列的压缩能力。该数据集的核心研究问题围绕Kolmogorov复杂性展开,即通过生成最短的计算机程序来输出给定序列。数据集涵盖了文本、DNA、音频数据(MFCC、16位和8位编码)以及随机程序生成的合成序列等多种模态,提供了1MB和1GB两种规模的数据。该数据集为代码语言模型(CodeLMs)在模式识别和序列压缩方面的能力提供了实证评估框架,对程序生成和压缩算法的研究具有重要影响。
当前挑战
KoLMogorov-Test数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,如何高效评估代码语言模型在生成最短程序以压缩序列方面的能力是一个复杂问题,尤其是在多模态数据(如文本、DNA和音频)中,不同数据类型的压缩难度和模式识别需求差异显著。其次,在数据集构建过程中,生成高质量的合成序列以及确保数据多样性和代表性是主要技术难点。此外,如何设计公平且可扩展的评估指标,以准确衡量模型的压缩性能,也是该数据集构建和实验中的关键挑战。
常用场景
经典使用场景
KoLMogorov-Test数据集主要用于评估代码生成模型在检测序列模式和压缩序列方面的能力。通过生成能够输出特定序列的短程序,研究者可以量化模型的压缩效率。这一数据集涵盖了文本、DNA、音频数据(MFCC、16位和8位编码)以及由随机程序生成的合成序列,为多模态数据压缩提供了丰富的实验环境。
实际应用
在实际应用中,KoLMogorov-Test数据集为开发高效的数据压缩工具提供了理论支持。例如,在生物信息学中,DNA序列的高效压缩可以显著减少存储和传输成本;在音频处理领域,压缩技术的优化能够提升语音识别和音频编码的效率。此外,该数据集还可用于训练和评估生成模型在合成数据上的表现,为工业界提供更高效的解决方案。
衍生相关工作
KoLMogorov-Test数据集催生了一系列关于代码生成模型和序列压缩的研究工作。例如,基于该数据集的SeqCoder模型在压缩率上取得了显著进展,成为该领域的经典工作之一。此外,许多研究者利用该数据集开发了新的评估指标和训练方法,进一步推动了代码生成与压缩技术的交叉研究。这些工作不仅扩展了数据集的应用范围,还为相关领域的研究提供了新的思路。
以上内容由遇见数据集搜集并总结生成



