SCBench

Hugging Face2024-12-13 更新2024-12-14 收录

下载链接：

https://huggingface.co/datasets/MInference/SCBench

下载链接

链接失效反馈

官方服务：

资源简介：

SCBench（SharedContextBench）是一个综合基准，用于评估在KV缓存为中心的视角下，高效长上下文方法的性能。数据集涵盖了12个多样化的任务，测试了四种关键的长上下文能力：字符串检索、语义检索、全局信息处理和多任务处理。每个任务都有特定的配置和特征，如上下文、多轮对话、ID等。数据集还包括了训练集的详细信息，如字节数和样本数。此外，SCBench还评估了这些任务在两种共享上下文模式下的表现：多轮模式和多请求模式。

创建时间：

2024-12-13

原始信息汇总

SCBench 数据集概述

数据集信息

配置名称：multi_turn_choice_eng

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
  - options: 字符串序列
- id: 整数
分割:
- train:
  - num_bytes: 46482955
  - num_examples: 58
下载大小: 28590613
数据集大小: 46482955

配置名称：multi_turn_kv

特征:
- id: 整数
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
分割:
- train:
  - num_bytes: 20071200
  - num_examples: 100
下载大小: 18278186
数据集大小: 20071200

配置名称：multi_turn_many_shot

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
- id: 整数
- task: 字符串
分割:
- train:
  - num_bytes: 4734315
  - num_examples: 54
下载大小: 99406
数据集大小: 4734315

配置名称：multi_turn_mf

特征:
- id: 整数
- context: 整数序列
- multi_turns: 列表
  - answer: 整数
  - input: 字符串
分割:
- train:
  - num_bytes: 24065100
  - num_examples: 100
下载大小: 3766479
数据集大小: 24065100

配置名称：multi_turn_prefix_suffix

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
分割:
- train:
  - num_bytes: 17498600
  - num_examples: 100
下载大小: 16417345
数据集大小: 17498600

配置名称：multi_turn_qa_chn

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
- id: 整数
分割:
- train:
  - num_bytes: 180437341
  - num_examples: 35
下载大小: 115936454
数据集大小: 180437341

配置名称：multi_turn_qa_eng

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
- id: 整数
分割:
- train:
  - num_bytes: 58359967
  - num_examples: 69
下载大小: 35648660
数据集大小: 58359967

配置名称：multi_turn_repoqa

特征:
- context: 字符串
- id: 整数
- multi_turns: 列表
  - answer: 字符串
  - code_ratio: 浮点数
  - description: 字符串
  - end_byte: 整数
  - end_line: 整数
  - func: 字符串
  - global_end_byte: 整数
  - global_end_line: 整数
  - global_start_byte: 整数
  - global_start_line: 整数
  - input: 字符串
  - name: 字符串
  - path: 字符串
  - start_byte: 整数
  - start_line: 整数
- lang: 字符串
- repo: 字符串
分割:
- train:
  - num_bytes: 24847710
  - num_examples: 88
下载大小: 4427455
数据集大小: 24847710

配置名称：multi_turn_repoqa_and_kv

特征:
- context: 字符串
- id: 整数
- multi_turns: 列表
  - answer: 字符串
  - code_ratio: 浮点数
  - description: 字符串
  - end_byte: 整数
  - end_line: 整数
  - func: 字符串
  - global_end_byte: 整数
  - global_end_line: 整数
  - global_start_byte: 整数
  - global_start_line: 整数
  - input: 字符串
  - name: 字符串
  - path: 字符串
  - start_byte: 整数
  - start_line: 整数
  - task: 字符串
- lang: 字符串
- repo: 字符串
分割:
- train:
  - num_bytes: 25019328
  - num_examples: 88
下载大小: 8583611
数据集大小: 25019328

配置名称：multi_turn_summary

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
- id: 整数
分割:
- train:
  - num_bytes: 28622955
  - num_examples: 70
下载大小: 14245669
数据集大小: 28622955

配置名称：multi_turn_summary_with_needles

特征:
- context: 字符串
- multi_turns: 列表
  - answer: 字符串
  - input: 字符串
  - task: 字符串
- id: 整数
分割:
- train:
  - num_bytes: 28629718
  - num_examples: 70
下载大小: 14233712
数据集大小: 28629718

配置名称：multi_turn_vt

特征:
- index: 整数
- input: 字符串
- length: 整数
- multi_turns: 列表
  - answer: 字符串序列
  - input: 字符串
分割:
- train:
  - num_bytes: 42549030
  - num_examples: 90
下载大小: 2160077
数据集大小: 42549030

数据文件

multi_turn_choice_eng:
- train: multi_turn_choice_eng/train-*
multi_turn_kv:
- train: multi_turn_kv/train-*
multi_turn_many_shot:
- train: multi_turn_many_shot/train-*
multi_turn_mf:
- train: multi_turn_mf/train-*
multi_turn_prefix_suffix:
- train: multi_turn_prefix_suffix/train-*
multi_turn_qa_chn:
- train: multi_turn_qa_chn/train-*
multi_turn_qa_eng:
- train: multi_turn_qa_eng/train-*
multi_turn_repoqa:
- train: multi_turn_repoqa/train-*
multi_turn_repoqa_and_kv:
- train: multi_turn_repoqa_and_kv/train-*
multi_turn_summary:
- train: multi_turn_summary/train-*
multi_turn_summary_with_needles:
- train: multi_turn_summary_with_needles/train-*
multi_turn_vt:
- train: multi_turn_vt/train-*

搜集汇总

数据集介绍

构建方式

SCBench数据集的构建基于对长上下文方法在KV缓存生命周期中的全面评估，涵盖了生成、压缩、检索和加载等关键环节。该数据集通过模拟真实场景中的共享上下文，设计了12个多样化的任务，旨在测试字符串检索、语义检索、全局信息处理和多任务处理等能力。每个任务均包含详细的特征定义，如上下文、多轮对话、答案、输入等，确保数据集的多样性和复杂性。

特点

SCBench数据集的显著特点在于其对长上下文处理方法的全面覆盖，不仅包括单轮对话，还涉及多轮对话和多请求场景。此外，数据集通过引入KV缓存重用技术，提供了对长上下文方法在不同压缩率下的性能分析。其多样化的任务设计使得该数据集能够有效评估模型在不同场景下的表现，尤其是在处理复杂和长篇输入时的能力。

使用方法

SCBench数据集适用于评估和优化长上下文处理方法，尤其是在涉及KV缓存的场景中。用户可以通过加载不同的配置文件来访问特定的任务数据，如字符串检索、语义检索、全局信息处理等。数据集提供了详细的特征字段，如上下文、多轮对话、答案等，便于用户进行模型训练和评估。此外，数据集还支持多轮对话和多请求模式，使得用户能够模拟真实场景中的复杂交互。

背景与挑战

背景概述

SCBench（SharedContextBench）是由Li, Yucheng等人于2024年创建的一个综合性基准数据集，旨在评估在KV缓存为中心的视角下，长上下文方法在实际场景中的性能。该数据集特别关注KV缓存的整个生命周期，包括生成、压缩、检索和加载，尤其是在多请求场景中共享和重用上下文内存的复杂情况。SCBench涵盖了12个多样化的任务，测试了四种关键的长上下文能力：字符串检索、语义检索、全局信息处理和多任务处理。该数据集的创建对推动长上下文处理技术的发展具有重要意义，尤其是在自然语言处理和代码检索等领域。

当前挑战

SCBench在构建过程中面临多项挑战。首先，如何在多请求和多轮对话场景中有效管理KV缓存的生命周期，确保在不同任务间的共享和重用效率，是一个复杂的技术难题。其次，数据集涉及的任务类型多样，从简单的字符串检索到复杂的语义理解和多任务处理，要求模型具备高度的灵活性和准确性。此外，随着生成长度的增加和请求轮次的增多，注意力分布的偏移问题成为影响模型性能的关键因素，尤其是在压缩率较高时，模型的性能下降显著。最后，如何在动态和静态模式之间找到平衡，以提升模型的整体表现，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

SCBench数据集的经典使用场景主要集中在多轮对话和长上下文处理领域。该数据集通过模拟多轮对话中的上下文共享和KV缓存的重用，评估了不同方法在长上下文环境中的性能。具体而言，SCBench涵盖了从字符串检索、语义检索到全局信息处理和多任务处理的多样化任务，如在大型代码库中基于自然语言描述进行函数检索，或在长文本中进行问答和多选题处理。这些任务不仅测试了模型的上下文理解能力，还评估了其在多轮对话中的表现。

衍生相关工作

SCBench数据集的发布催生了一系列相关研究工作，特别是在长上下文处理和KV缓存管理领域。基于SCBench的实验结果，研究人员提出了多种改进方法，如动态稀疏模式和混合任务处理策略，以应对多轮对话和多请求场景中的挑战。此外，SCBench还启发了对现有长上下文方法的重新评估，推动了稀疏解码和全局信息处理技术的进一步发展。这些衍生工作不仅丰富了长上下文处理的理论体系，还为实际应用中的性能优化提供了新的思路。

数据集最近研究