SCBench
收藏Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://huggingface.co/datasets/MInference/SCBench
下载链接
链接失效反馈官方服务:
资源简介:
SCBench(SharedContextBench)是一个综合基准,用于评估在KV缓存为中心的视角下,高效长上下文方法的性能。数据集涵盖了12个多样化的任务,测试了四种关键的长上下文能力:字符串检索、语义检索、全局信息处理和多任务处理。每个任务都有特定的配置和特征,如上下文、多轮对话、ID等。数据集还包括了训练集的详细信息,如字节数和样本数。此外,SCBench还评估了这些任务在两种共享上下文模式下的表现:多轮模式和多请求模式。
创建时间:
2024-12-13
原始信息汇总
SCBench 数据集概述
数据集信息
配置名称:multi_turn_choice_eng
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串options: 字符串序列
id: 整数
- 分割:
train:num_bytes: 46482955num_examples: 58
- 下载大小: 28590613
- 数据集大小: 46482955
配置名称:multi_turn_kv
- 特征:
id: 整数context: 字符串multi_turns: 列表answer: 字符串input: 字符串
- 分割:
train:num_bytes: 20071200num_examples: 100
- 下载大小: 18278186
- 数据集大小: 20071200
配置名称:multi_turn_many_shot
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串
id: 整数task: 字符串
- 分割:
train:num_bytes: 4734315num_examples: 54
- 下载大小: 99406
- 数据集大小: 4734315
配置名称:multi_turn_mf
- 特征:
id: 整数context: 整数序列multi_turns: 列表answer: 整数input: 字符串
- 分割:
train:num_bytes: 24065100num_examples: 100
- 下载大小: 3766479
- 数据集大小: 24065100
配置名称:multi_turn_prefix_suffix
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串
- 分割:
train:num_bytes: 17498600num_examples: 100
- 下载大小: 16417345
- 数据集大小: 17498600
配置名称:multi_turn_qa_chn
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串
id: 整数
- 分割:
train:num_bytes: 180437341num_examples: 35
- 下载大小: 115936454
- 数据集大小: 180437341
配置名称:multi_turn_qa_eng
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串
id: 整数
- 分割:
train:num_bytes: 58359967num_examples: 69
- 下载大小: 35648660
- 数据集大小: 58359967
配置名称:multi_turn_repoqa
- 特征:
context: 字符串id: 整数multi_turns: 列表answer: 字符串code_ratio: 浮点数description: 字符串end_byte: 整数end_line: 整数func: 字符串global_end_byte: 整数global_end_line: 整数global_start_byte: 整数global_start_line: 整数input: 字符串name: 字符串path: 字符串start_byte: 整数start_line: 整数
lang: 字符串repo: 字符串
- 分割:
train:num_bytes: 24847710num_examples: 88
- 下载大小: 4427455
- 数据集大小: 24847710
配置名称:multi_turn_repoqa_and_kv
- 特征:
context: 字符串id: 整数multi_turns: 列表answer: 字符串code_ratio: 浮点数description: 字符串end_byte: 整数end_line: 整数func: 字符串global_end_byte: 整数global_end_line: 整数global_start_byte: 整数global_start_line: 整数input: 字符串name: 字符串path: 字符串start_byte: 整数start_line: 整数task: 字符串
lang: 字符串repo: 字符串
- 分割:
train:num_bytes: 25019328num_examples: 88
- 下载大小: 8583611
- 数据集大小: 25019328
配置名称:multi_turn_summary
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串
id: 整数
- 分割:
train:num_bytes: 28622955num_examples: 70
- 下载大小: 14245669
- 数据集大小: 28622955
配置名称:multi_turn_summary_with_needles
- 特征:
context: 字符串multi_turns: 列表answer: 字符串input: 字符串task: 字符串
id: 整数
- 分割:
train:num_bytes: 28629718num_examples: 70
- 下载大小: 14233712
- 数据集大小: 28629718
配置名称:multi_turn_vt
- 特征:
index: 整数input: 字符串length: 整数multi_turns: 列表answer: 字符串序列input: 字符串
- 分割:
train:num_bytes: 42549030num_examples: 90
- 下载大小: 2160077
- 数据集大小: 42549030
数据文件
- multi_turn_choice_eng:
train:multi_turn_choice_eng/train-*
- multi_turn_kv:
train:multi_turn_kv/train-*
- multi_turn_many_shot:
train:multi_turn_many_shot/train-*
- multi_turn_mf:
train:multi_turn_mf/train-*
- multi_turn_prefix_suffix:
train:multi_turn_prefix_suffix/train-*
- multi_turn_qa_chn:
train:multi_turn_qa_chn/train-*
- multi_turn_qa_eng:
train:multi_turn_qa_eng/train-*
- multi_turn_repoqa:
train:multi_turn_repoqa/train-*
- multi_turn_repoqa_and_kv:
train:multi_turn_repoqa_and_kv/train-*
- multi_turn_summary:
train:multi_turn_summary/train-*
- multi_turn_summary_with_needles:
train:multi_turn_summary_with_needles/train-*
- multi_turn_vt:
train:multi_turn_vt/train-*
搜集汇总
数据集介绍

构建方式
SCBench数据集的构建基于对长上下文方法在KV缓存生命周期中的全面评估,涵盖了生成、压缩、检索和加载等关键环节。该数据集通过模拟真实场景中的共享上下文,设计了12个多样化的任务,旨在测试字符串检索、语义检索、全局信息处理和多任务处理等能力。每个任务均包含详细的特征定义,如上下文、多轮对话、答案、输入等,确保数据集的多样性和复杂性。
特点
SCBench数据集的显著特点在于其对长上下文处理方法的全面覆盖,不仅包括单轮对话,还涉及多轮对话和多请求场景。此外,数据集通过引入KV缓存重用技术,提供了对长上下文方法在不同压缩率下的性能分析。其多样化的任务设计使得该数据集能够有效评估模型在不同场景下的表现,尤其是在处理复杂和长篇输入时的能力。
使用方法
SCBench数据集适用于评估和优化长上下文处理方法,尤其是在涉及KV缓存的场景中。用户可以通过加载不同的配置文件来访问特定的任务数据,如字符串检索、语义检索、全局信息处理等。数据集提供了详细的特征字段,如上下文、多轮对话、答案等,便于用户进行模型训练和评估。此外,数据集还支持多轮对话和多请求模式,使得用户能够模拟真实场景中的复杂交互。
背景与挑战
背景概述
SCBench(SharedContextBench)是由Li, Yucheng等人于2024年创建的一个综合性基准数据集,旨在评估在KV缓存为中心的视角下,长上下文方法在实际场景中的性能。该数据集特别关注KV缓存的整个生命周期,包括生成、压缩、检索和加载,尤其是在多请求场景中共享和重用上下文内存的复杂情况。SCBench涵盖了12个多样化的任务,测试了四种关键的长上下文能力:字符串检索、语义检索、全局信息处理和多任务处理。该数据集的创建对推动长上下文处理技术的发展具有重要意义,尤其是在自然语言处理和代码检索等领域。
当前挑战
SCBench在构建过程中面临多项挑战。首先,如何在多请求和多轮对话场景中有效管理KV缓存的生命周期,确保在不同任务间的共享和重用效率,是一个复杂的技术难题。其次,数据集涉及的任务类型多样,从简单的字符串检索到复杂的语义理解和多任务处理,要求模型具备高度的灵活性和准确性。此外,随着生成长度的增加和请求轮次的增多,注意力分布的偏移问题成为影响模型性能的关键因素,尤其是在压缩率较高时,模型的性能下降显著。最后,如何在动态和静态模式之间找到平衡,以提升模型的整体表现,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
SCBench数据集的经典使用场景主要集中在多轮对话和长上下文处理领域。该数据集通过模拟多轮对话中的上下文共享和KV缓存的重用,评估了不同方法在长上下文环境中的性能。具体而言,SCBench涵盖了从字符串检索、语义检索到全局信息处理和多任务处理的多样化任务,如在大型代码库中基于自然语言描述进行函数检索,或在长文本中进行问答和多选题处理。这些任务不仅测试了模型的上下文理解能力,还评估了其在多轮对话中的表现。
衍生相关工作
SCBench数据集的发布催生了一系列相关研究工作,特别是在长上下文处理和KV缓存管理领域。基于SCBench的实验结果,研究人员提出了多种改进方法,如动态稀疏模式和混合任务处理策略,以应对多轮对话和多请求场景中的挑战。此外,SCBench还启发了对现有长上下文方法的重新评估,推动了稀疏解码和全局信息处理技术的进一步发展。这些衍生工作不仅丰富了长上下文处理的理论体系,还为实际应用中的性能优化提供了新的思路。
数据集最近研究
最新研究方向
SCBench数据集在长上下文处理领域的前沿研究中,聚焦于KV缓存的生命周期管理,涵盖生成、压缩、检索和加载等关键环节。该数据集通过多任务和多轮对话模式,评估模型在共享上下文环境中的表现,特别是在多请求和多轮解码场景下的性能。研究发现,子O(n)内存的稀疏解码方法在初始查询中表现优异,但在后续请求中精度下降显著,而保持O(n)内存的方法在多轮解码中更具优势。此外,研究还揭示了任务性能随压缩率增加而下降的规律,以及动态稀疏模式在长生成场景中的优越性。SCBench的这些发现为高效长上下文方法的设计和优化提供了重要参考,推动了该领域的技术进步。
以上内容由遇见数据集搜集并总结生成



