oolong-synth-1k-16k

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/tonychenxyz/oolong-synth-1k-16k

下载链接

链接失效反馈

官方服务：

资源简介：

Oolong-Synth (1K-16K上下文长度) 是一个用于测试长上下文模型分析和聚合能力的挑战性基准数据集。该数据集包含1K-16K上下文长度的子集，旨在评估模型在分析文本块和聚合这些分析以回答分布问题方面的能力。数据集提供两种配置：memwrap（带有内存标记的上下文窗口）和plain（不带内存标记的上下文窗口）。数据集字段包括prompt（聊天模板提示字符串）、category（变体/任务组/上下文长度）和extra_info（包含ground_truth和scoring_function）。任务类型包括计数任务、时间线任务和用户任务，答案类型涵盖标签、数字、比较、日期、月年和用户ID等。数据集的使用和评估方法也在README中详细说明。

创建时间：

2026-01-09

原始信息汇总

数据集概述

基本信息

数据集名称: Oolong-Synth (1K-16K context lengths) for Code-LLaVA
托管地址: https://huggingface.co/datasets/tonychenxyz/oolong-synth-1k-16k
许可证: MIT
主要任务类别: 问答、文本分类
语言: 英语
数据规模: 1K<n<10K
标签: 长上下文、聚合、推理、基准测试

来源与背景

相关论文: Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities
原始数据集: oolongbench/oolong-synth
描述: Oolong 是一个用于评估长上下文模型能力的挑战性聚合基准，测试模型分析独立文本块并聚合这些分析以回答分布性问题的能力。本数据集包含 Oolong-synth 的 1K-16K 上下文长度 子集。

上下文长度

该子集包含上下文长度为以下 token 数量的样本：1024, 2048, 4096, 8192, 16384。

数据集结构

提供两种配置：

memwrap: 上下文窗口使用 <|memory_start|> / <|memory_end|> 标记包裹。
plain: 相同内容，但不包含内存标记（作为基线）。

配置详情

memwrap 配置

特征:
- prompt: 字符串类型，聊天模板化的提示字符串。
- category: 字符串类型，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, task, task_group, dataset, context_len。
  - scoring_function: 字符串类型。
  - variant: 字符串类型。
数据分割:
- test 分割：包含 2000 个样本，文件大小 36046031 字节。
下载大小: 11264629 字节。
数据集大小: 36046031 字节。

plain 配置

特征:
- prompt: 字符串类型，聊天模板化的提示字符串。
- category: 字符串类型，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, context_len, dataset, task, task_group。
  - scoring_function: 字符串类型。
  - variant: 字符串类型。
数据分割:
- test 分割：包含 2000 个样本，文件大小 35974031 字节。
下载大小: 11225683 字节。
数据集大小: 35974031 字节。

任务类型

计数任务: 最常见标签、最不常见标签、标签计数。
时间线任务: 时间分布问题。
用户任务: 用户特定模式问题。

答案类型

ANSWER_TYPE.LABEL: 分类标签。
ANSWER_TYPE.NUMERIC: 数字计数。
ANSWER_TYPE.COMPARISON: 比较性陈述。
ANSWER_TYPE.DATE: 日期答案。
ANSWER_TYPE.MONTH_YEAR: 年月答案。
ANSWER_TYPE.USER: 用户ID。

使用方式

可通过 datasets 库加载，并可按任务组进行过滤。

评估方法

使用评分器 (oolong_synth) 计算：

accuracy: 对于分类答案采用精确匹配，对于日期答案采用日期匹配。
partial_score: 对于数字答案，使用指数衰减计算：0.75^|gold - pred|。

搜集汇总

数据集介绍

构建方式

在长上下文推理领域，Oolong-Synth-1k-16k数据集的构建体现了对模型聚合分析能力的系统性评估需求。该数据集源自原始Oolong-synth基准，通过精心筛选并保留了上下文长度在1024至16384令牌之间的样本，覆盖了五个关键的长度层级。构建过程中，数据以两种配置形式呈现：memwrap版本在上下文窗口周围添加了特定的内存标记，而plain版本则作为无标记的基线对照，这种设计旨在探究不同输入格式对模型性能的影响。每个样本均包含经过聊天模板处理的提示字符串、详细的任务类别信息以及包含真实答案和评分函数的元数据，确保了评估的严谨性与可复现性。

特点

该数据集的核心特点在于其专注于长上下文下的聚合推理挑战，涵盖了计数、时间线和用户行为等多种任务类型，旨在检验模型从分散的文本片段中提取并整合信息的能力。数据集提供了多样化的答案类型，包括分类标签、数值计数、比较陈述、日期及用户标识等，这种多样性能够全面评估模型在不同语义层面的理解与生成准确性。此外，通过memwrap与plain两种配置的并行提供，研究者可以深入分析结构化标记对长上下文处理效果的具体影响，为模型优化提供了重要的对照依据。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库便捷加载，指定memwrap或plain配置以获取相应的测试集。数据加载后，可利用过滤功能根据任务类别（如counting）对样本进行细分，从而针对特定推理任务展开深入分析。评估过程依托内置的oolong_synth评分函数，该函数依据答案类型采用不同的匹配策略：对于分类答案采用精确匹配，对于日期答案采用日期匹配，而对于数值答案则采用基于指数衰减的部分评分机制，确保了评估结果的科学性与细腻度。

背景与挑战

背景概述

在自然语言处理领域，长上下文推理与聚合能力是评估大型语言模型性能的关键维度。Oolong-synth-1k-16k数据集作为Oolong基准测试的重要组成部分，由研究团队于2024年提出，旨在系统性地检验模型在长达1K至16K令牌上下文窗口内进行信息分析与综合推理的能力。该数据集聚焦于分布性问题的解答，通过合成数据模拟现实场景中的复杂查询，推动了长上下文建模技术的发展，并为模型在文档理解、时序分析等任务上的评估提供了标准化工具。

当前挑战

该数据集致力于解决长上下文模型在聚合推理任务中的核心挑战，即模型如何有效整合分散在冗长文本中的关键信息以回答涉及整体分布的问题。构建过程中的主要困难在于生成高质量且多样化的合成数据，需确保不同上下文长度下的任务复杂度与真实性，同时设计精确的评估指标以区分模型在分类、数值比较及时间线分析等子任务上的细微性能差异。

常用场景

经典使用场景

在长上下文语言模型评估领域，oolong-synth-1k-16k数据集被设计用于系统检验模型在扩展上下文窗口内的聚合推理能力。其核心应用场景聚焦于评估模型如何解析分布于长达16K令牌文本片段中的分散信息，并执行跨片段的分析整合，以回答涉及统计分布、频率计算及时间线归纳的复杂问题。该数据集通过精心构建的计数、时间线和用户模式等任务，模拟了真实世界中需要从冗长文档中提取并综合关键信息的挑战，为衡量模型的长距离依赖处理与信息聚合效能提供了标准化测试平台。

衍生相关工作

围绕oolong-synth数据集，研究社区已衍生出一系列专注于长上下文模型评估与改进的经典工作。原始论文《Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities》系统阐述了其设计理念与评估指标。后续研究常以此数据集为基准，探索如记忆增强架构、分层注意力机制及递归聚合策略等技术创新，以提升模型在长文本中的信息整合效率。同时，该数据集也促进了针对特定任务组（如计数或时间线分析）的专用模型微调与对比实验，推动了长上下文理解技术向更专业化、更鲁棒的方向演进。

数据集最近研究