r19-rate-distortion-sweep

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/spectralbranding/r19-rate-distortion-sweep

下载链接

链接失效反馈

官方服务：

资源简介：

R19 数据集是一个用于研究率失真扫描（Rate-Distortion Sweep）的数据集，涵盖了17种不同的LLM架构。数据集包含1,652次API调用（1,621次有效，解析率为98.1%），涉及17种不同的训练管道、5种标准SBT品牌和5种率条件。主要发现包括J形R(D)曲线，最小失真出现在R2（1-5尺度，19位），而不是R1（100点分配，26位）。配对t检验结果显示t(16) = 11.92，p < .00001，d_z = 2.89。此外，跨架构码本收敛得到确认（平均CV = .140）。数据集适用于文本生成和文本分类任务，特别适合品牌感知、LLM评估、率失真理论等相关研究。数据集规模在1K到10K之间，包含多个配置和分割。

创建时间：

2026-04-12

原始信息汇总

R19: Rate-Distortion Sweep — 17 LLM Architectures 数据集概述

基本信息

数据集名称：R19: Rate-Distortion Sweep — 17 LLM Architectures
许可证：cc-by-nc-nd-4.0
主要语言：英语 (en)
任务类别：文本生成、文本分类
数据规模：1K<n<10K
版本：v1.1 (2026-04-12, 17-model panel)

研究背景与内容

核心研究领域：品牌感知、大语言模型评估、率失真理论、向量量化、谱品牌理论、维度坍缩、J曲线。
研究性质：预注册研究。
关键工具/框架：PRISM-B、跨架构分析。
数据构成：包含1,652次API调用（其中1,621次有效，解析率为98.1%），覆盖来自17个不同训练流程的17种LLM架构、5个经典SBT品牌和5种率条件。
主要发现：
- 发现J形R(D)曲线，最小失真出现在R2条件（1-5尺度，19比特），而非R1条件（100点分配，26比特）。
- 配对t检验结果：t(16) = 11.92, p < .00001, d_z = 2.89。
- 确认了跨架构码本收敛（平均变异系数CV = .140）。

数据集配置与文件

数据集包含以下配置及对应数据文件：

default
- 文件：train.csv (位于 train 分割)
rate_sweep
- 文件：data/r19_rate_sweep.jsonl (位于 train 分割)
per_cell
- 文件：analysis/r19_per_cell.csv (位于 train 分割)
per_brand
- 文件：analysis/r19_per_brand_rd.csv (位于 train 分割)

引用

引用信息：Zharnikov, D. (2026aa, in preparation)

搜集汇总

数据集介绍

构建方式

在品牌感知与语言模型评估的交叉领域，R19数据集通过精心设计的实验框架构建而成。研究团队对17种不同训练路径的大型语言模型架构进行了系统性的采样，涵盖了五个经典光谱品牌理论品牌与五种速率条件。数据收集过程总计完成了1,652次API调用，其中有效响应达1,621次，解析成功率高达98.1%，确保了数据的高质量与完整性。这种跨架构的对比设计，为探究速率-失真关系提供了坚实且多维度的实证基础。

特点

该数据集的核心特征在于揭示了速率-失真理论在语言模型品牌感知中的独特表现。其最显著的发现是呈现出一条J形的R(D)曲线，失真最小值出现在R2速率条件（1-5尺度，19比特）而非R1条件（100点分配，26比特），这一反直觉的现象通过了严格的统计检验。数据集进一步证实了跨架构码本收敛的存在，平均变异系数仅为0.140，展现了不同模型在潜在表征上的一致性。这些特征使其成为研究向量量化与维度坍缩等现象的宝贵资源。

使用方法

研究人员可利用该数据集深入探索大型语言模型在受限信息速率下的品牌感知能力与表征效率。数据集提供了默认配置、速率扫描、单元级与品牌级分析等多种视图，用户可根据具体研究问题选择相应的数据文件进行加载与分析。例如，通过`rate_sweep`配置可系统考察不同信息压缩率对模型输出的影响，而`per_brand`文件则便于进行以品牌为单位的速率-失真关系分析。配套的摘要文档与预注册协议为结果的复现与解读提供了完整的技术背景。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）的评估与优化是推动技术发展的核心议题。R19: Rate-Distortion Sweep数据集由研究人员Zharnikov于2026年创建，旨在基于率失真理论，系统探究不同LLM架构在品牌感知任务中的性能表现。该数据集覆盖了17种独立训练流程的LLM架构，通过精心设计的速率条件与光谱品牌理论框架，深入分析模型在向量量化与维度塌缩等现象中的行为。其核心研究问题聚焦于揭示LLM在信息压缩与重构过程中的最优平衡点，即J形率失真曲线的特征，为跨架构模型比较与代码本收敛研究提供了实证基础，对自然语言处理与模型评估领域具有重要的方法论意义。

当前挑战

该数据集致力于解决品牌感知与LLM评估中的率失真优化挑战，即在有限信息速率下最小化语义失真，具体体现为探索J形曲线中失真最低的速率点。构建过程中的挑战包括：确保跨17种LLM架构的数据采集一致性，以支持可靠的交叉架构比较；实现高解析率（98.1%）的API调用与数据验证，避免技术偏差；以及在预注册协议下严格遵循实验设计，保障结果的可复现性与统计效力，如通过配对t检验验证假设。

常用场景

经典使用场景

在大型语言模型（LLM）的评估与优化领域，R19数据集被广泛应用于探索率失真理论框架下的模型性能边界。该数据集通过系统性地控制编码率条件，生成了跨越17种不同架构LLM的响应数据，为研究者提供了分析模型在信息压缩与重构任务中表现的标准基准。经典使用场景包括评估模型在有限信息容量下如何平衡编码效率与输出质量，从而揭示LLM在向量量化与维度坍缩等现象中的内在规律。

衍生相关工作

基于R19数据集，学术界衍生了一系列经典研究工作。例如，PRISM-B评估框架利用该数据进行了跨架构的标准化比较，推动了LLM基准测试的规范化。多项研究进一步探讨了代码本收敛与维度坍缩的机制，为向量量化技术的改进提供了实证支持。此外，该数据集启发了对J曲线现象的理论建模，促进了率失真理论在神经语言处理中的新应用，并催生了针对品牌感知任务的专用微调方法。

数据集最近研究

r19-rate-distortion-sweep

R19: Rate-Distortion Sweep — 17 LLM Architectures 数据集概述

基本信息

研究背景与内容

数据集配置与文件

相关文档

引用