oolong-synth-256k-plus

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/tonychenxyz/oolong-synth-256k-plus

下载链接

链接失效反馈

官方服务：

资源简介：

Oolong是一个具有挑战性的长上下文模型聚合基准测试，用于测试模型分析单个文本块并聚合这些分析以回答分布问题的能力。该数据集包含Oolong-synth的256K+上下文长度子集，支持两种配置：memwrap（带有内存标记的上下文窗口）和plain（无内存标记的基线）。数据集包含多种任务类型（如计数任务、时间线任务和用户任务）和答案类型（如分类标签、数字计数和日期答案）。评估时使用oolong_synth评分器计算准确性和部分分数。

创建时间：

2026-01-09

原始信息汇总

数据集概述

基本描述

数据集名称: Oolong-Synth (256K+ context lengths) for Code-LLaVA
数据集地址: https://huggingface.co/datasets/tonychenxyz/oolong-synth-256k-plus
许可证: mit
主要任务类别: 问答、文本分类
语言: 英语
规模类别: 1K<n<10K
标签: 长上下文、聚合、推理、基准测试

来源与背景

相关论文: Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities
原始数据集: oolongbench/oolong-synth
描述: Oolong 是一个用于评估长上下文模型的挑战性聚合基准，测试模型分析单个文本块并聚合这些分析以回答分布性问题的能力。本数据集包含 Oolong-synth 的 256K+ 上下文长度 子集。

上下文长度

此子集包含上下文长度为以下 token 数量的样本：262144, 524288, 1048576, 2097152, 4194304。

数据集结构

提供两种配置：

memwrap: 上下文窗口被包裹在 <|memory_start|> / <|memory_end|> 标记中。
plain: 相同内容，但不包含内存标记（基线）。

配置详情

`memwrap` 配置

特征:
- prompt: 字符串，聊天模板化的提示。
- category: 字符串，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, task, task_group, dataset, context_len。
  - scoring_function: 字符串，值为 oolong_synth。
  - variant: 字符串。
数据分割:
- test 分割：包含 2000 个样本，数据集大小 9299740828 字节，下载大小 4994203100 字节。

`plain` 配置

特征:
- prompt: 字符串，聊天模板化的提示。
- category: 字符串，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, context_len, dataset, task, task_group。
  - scoring_function: 字符串，值为 oolong_synth。
  - variant: 字符串。
数据分割:
- test 分割：包含 2000 个样本，数据集大小 9299668828 字节，下载大小 4993985316 字节。

任务与答案类型

任务类型

计数任务: 最常见标签、最不常见标签、标签计数。
时间线任务: 时间分布问题。
用户任务: 用户特定模式问题。

答案类型

ANSWER_TYPE.LABEL: 分类标签。
ANSWER_TYPE.NUMERIC: 数字计数。
ANSWER_TYPE.COMPARISON: 比较语句。
ANSWER_TYPE.DATE: 日期答案。
ANSWER_TYPE.MONTH_YEAR: 年月答案。
ANSWER_TYPE.USER: 用户 ID。

使用方式

可通过 datasets 库加载： python from datasets import load_dataset

加载 memwrap 变体

ds = load_dataset("tonychenxyz/oolong-synth-256k-plus", "memwrap", split="test")

按任务组过滤

counting = ds.filter(lambda x: "counting" in x["category"])

评估方法

评估使用 oolong_synth 评分器计算：

accuracy: 对于分类答案采用精确匹配，对于日期答案采用日期匹配。
partial_score: 对于数字答案，使用指数衰减计算：0.75^|gold - pred|。

搜集汇总

数据集介绍

构建方式

在长上下文推理与聚合能力评估领域，oolong-synth-256k-plus数据集通过精心设计的合成方法构建而成。其核心在于生成包含大量文本块的长序列，每个序列均嵌入特定分析任务，要求模型对分散信息进行整合。数据生成过程模拟了真实场景中的信息分布模式，涵盖计数、时间线及用户行为等多种任务类型，并严格控制上下文长度，确保样本覆盖从262144到4194304令牌的极端范围。

特点

该数据集显著特点在于其极长的上下文处理需求与多样化的聚合任务设计。它不仅提供了两种配置——包含记忆标记的memwrap版本与无标记的plain版本，以支持不同模型架构的评估，还涵盖了丰富的答案类型，包括分类标签、数值计数、比较陈述及日期等。每个样本均附带详细元数据，如任务分组、上下文长度及评分函数，为系统性分析模型的长程依赖捕捉与信息整合能力提供了结构化基础。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载指定配置，例如memwrap或plain版本，并利用过滤功能按任务类别筛选样本。评估过程依托内置的oolong_synth评分函数，该函数针对不同答案类型采用差异化度量标准：分类答案采用精确匹配，数值答案则使用指数衰减的部分评分机制。这种设计使得数据集能够全面量化模型在超长上下文中的推理准确性与数值逼近能力。

背景与挑战

背景概述

随着大型语言模型在长上下文理解领域的发展，评估模型在超长序列中的推理与聚合能力成为关键研究方向。oolong-synth-256k-plus数据集由研究团队于2024年提出，其核心研究问题聚焦于测试模型在超过256K令牌的极端上下文长度下，对分散信息进行有效分析与综合归纳的能力。该数据集作为Oolong基准测试的重要组成部分，通过合成数据构建了多种复杂任务，旨在推动长上下文模型在信息聚合与分布推理方面的技术进步，为相关领域的性能评估提供了标准化工具。

当前挑战

该数据集旨在解决长上下文模型中信息聚合与分布推理的评估挑战，具体包括模型在超长序列中准确识别频繁标签、统计事件数量以及分析时间线模式等任务的困难。在构建过程中，研究者面临生成高质量合成数据以模拟真实世界长文档结构的复杂性，同时需确保任务设计的多样性与评分函数的精确性，以覆盖不同答案类型并实现稳健的性能度量。

常用场景

经典使用场景

在长上下文语言模型评估领域，oolong-synth-256k-plus数据集被广泛用于测试模型在超长文本序列中的推理与聚合能力。其典型应用场景涉及对模型进行系统性基准测试，研究者通过该数据集评估模型在包含数十万至数百万令牌的语境中，执行计数、时间线分析和用户模式识别等复杂任务的表现。数据集提供的两种配置——带记忆标记的memwrap版本与无标记的plain版本，使得对比实验能够深入探究结构化提示对长上下文处理的影响，为模型优化提供了关键参照。

实际应用

在实际应用中，oolong-synth-256k-plus数据集为开发能够处理长篇文档、法律文本、科学文献或历史档案的智能系统提供了评估基础。例如，在金融分析或医疗记录审查中，模型需要从海量文本中汇总关键统计数据或识别时间趋势，该数据集的评估框架可直接迁移至这些场景，验证模型在信息密集的长文档中进行准确推理的实用性。其设计的评分函数支持精确匹配与数值衰减评分，确保了评估结果既能反映分类准确性，也能量化数值预测的误差程度。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在长上下文模型的基准构建与能力拓展。例如，原始论文《Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities》系统阐述了数据集的构建理念与评估方法，为后续研究奠定了理论基础。许多研究利用该数据集对比了不同模型架构（如Transformer变体）在超长序列处理上的效率与精度，并探索了记忆机制、注意力优化等技术对聚合性能的提升。这些工作共同推动了长上下文评估生态的发展，催生了更多专注于极端长度文本理解的数据集与模型。

以上内容由遇见数据集搜集并总结生成