LiveLongBench

Name: LiveLongBench
Creator: 北京国际商务与经济大学, 北京人工智能研究院
Published: 2025-04-24 16:27:48
License: 暂无描述

arXiv2025-04-24 更新2025-04-26 收录

下载链接：

https://github.com/Yarayx/livelongbench

下载链接

链接失效反馈

官方服务：

资源简介：

LiveLongBench是一个由直播流语音文本构成的第一个双语基准数据集，旨在评估长文本理解和推理能力。该数据集包含约97K个序列，涵盖中文和英文。数据集收集自抖音电商平台直播流，涵盖了11个主要产品类别和32个子类别，具有丰富的语言特征和高度冗余性。该数据集为开发针对口语长文本理解的压缩方法提供了宝贵的测试平台。

LiveLongBench is the first bilingual benchmark dataset composed of live streaming audio transcripts, designed to evaluate long-text understanding and reasoning abilities. It contains approximately 97K sequences covering both Chinese and English. The dataset is collected from live streams on the Douyin e-commerce platform, covering 11 major product categories and 32 subcategories, and exhibits rich linguistic features and high redundancy. This dataset provides a valuable testbed for developing compression methods targeting spoken long-text understanding.

提供机构：

北京国际商务与经济大学, 北京人工智能研究院

创建时间：

2025-04-24

原始信息汇总

LiveLongBench数据集概述

数据集简介

LiveLongBench是首个基于直播场景的语音长文本数据集，专注于解决自然语言处理中的长上下文理解挑战。该数据集特别针对现实对话中存在的语音元素、高冗余性和信息密度不均等特点设计。

核心特点

数据来源：源自真实直播场景的语音文本
核心挑战：处理高冗余性、对话性质的现实场景文本
应用场景：电子商务和直播领域的实际应用

任务分类

检索依赖型任务
推理依赖型任务
混合型任务

数据集结构

LiveLongBench/ ├── data/ # 数据集文件及预处理脚本 ├── data/results/ # 基准测试结果和评估输出 ├── scripts/ # 模型评估运行脚本 ├── src/ # 模型实现和任务评估源代码 ├── eval/ # "大海捞针"实验代码和资源 ├── pipeline_passkey/ # "大海捞针"任务实验流程

获取方式

演示样本：包含在仓库的data/livedata/目录中
完整数据集：存储在Google Drive，需通过指定链接申请访问权限
- 访问申请链接：https://drive.google.com/drive/folders/1aWDSOwfeVCNnUqP0ZLo0vsC5soCAlssN?usp=drive_link

引用信息

bibtex @misc{wu2025livelongbench, title={LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams}, author={Yongxuan Wu and Runyu Chen and Peiyu Liu and Hongjin Qian}, year={2025}, eprint={2504.17366}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17366}, }

论文地址：https://arxiv.org/abs/2504.17366

搜集汇总

数据集介绍

构建方式

LiveLongBench数据集构建过程严谨且系统化，主要来源于抖音电商直播流的多语言转录文本。通过预训练的Whisper语音转文本模型，完整保留了原始语境中的重复内容和填充词，确保数据的真实性。在数据处理阶段，团队移除了敏感信息并进行轻度过滤，以消除极端噪音，同时保留直播语言的非正式和冗余特征。数据集涵盖11个主要产品类别和32个子类别，平均序列长度约为97K词符，充分反映了现实场景中口语文本的复杂性和多样性。

特点

LiveLongBench作为首个专注于直播流口语长文本理解的基准数据集，具有鲜明的领域特征。其核心特点体现在三个方面：高度冗余的对话内容包含大量重复短语和填充词；非正式语言风格包含短句片段和频繁的话题漂移；多任务评估框架涵盖检索依赖型、推理依赖型和混合型三类任务。与现有长文本基准相比，该数据集独特的双语特性（中英文）和超长平均序列长度（97K词符）使其能更真实地模拟电商直播等实际应用场景中的语言理解挑战。

使用方法

使用LiveLongBench进行模型评估时，研究者可通过三类任务全面检验长上下文理解能力。检索依赖型任务要求从冗余内容中准确定位关键信息；推理依赖型任务需要结合外部知识进行语义推断；混合型任务则需同时完成信息提取和逻辑推理。评估指标包含精确匹配率（Exact Match）和综合评分（Score），分别从严格准确度和部分正确性两个维度衡量模型表现。为优化计算效率，建议采用论文提出的混合KV缓存压缩策略，结合量化、注意力稀疏化和令牌修剪等多种技术，在保证性能的同时降低内存消耗。

背景与挑战

背景概述

LiveLongBench是由对外经济贸易大学和北京人工智能研究院的研究团队于2024年提出的首个面向直播流口语文本的长上下文理解基准数据集。该数据集源于抖音电商直播场景，涵盖11个主要商品类别的双语转录文本，平均序列长度达97K token，旨在解决自然语言处理领域长期存在的口语文本冗余度高、信息密度不均等核心问题。作为首个融合实时性、非正式性和高冗余特性的评测基准，其创新性地设计了检索依赖型、推理依赖型和混合型三类任务，为对话式AI和实时通信系统的开发提供了重要研究基础。

当前挑战

LiveLongBench面临双重挑战：在领域问题层面，现有模型难以有效处理口语文本特有的非正式表达（如句法省略、话题漂移）和高冗余特征（如填充词重复），导致在检索类任务中平均准确率较人类水平低42.3%；在构建过程中，需克服语音转写中的语义完整性保持（WER控制在0.53%）、多模态信息剥离以及超长序列标注一致性等难题。特别是针对直播场景的动态话题转换特性，数据集构建团队需设计新型的语义多跨度标注体系，以捕捉概念相关但分散的对话片段。

常用场景

经典使用场景

LiveLongBench数据集专为评估长文本口语理解而设计，特别适用于直播流等实时交互场景。该数据集通过模拟真实世界中的高冗余性和非正式语言特征，为研究者提供了一个测试模型在复杂口语环境中表现的平台。其经典使用场景包括模型在长上下文检索、推理及混合任务中的性能评估，尤其在处理直播电商中的多轮对话和冗余信息时表现出色。

衍生相关工作

该数据集已催生多项创新研究，特别是在KV缓存压缩技术的组合优化方面。基于LiveLongBench的测试结果，研究者提出了混合压缩策略（如KIVI+MInference+Lingua），通过数据包络分析确定最优组合方案。相关衍生工作还包括：针对口语冗余设计的注意力稀疏化方法、结合自扩展技术的长上下文处理框架，以及专门面向电商领域的微调模型（如eCeLLM-M）。这些进展显著提升了模型在实时语音交互场景中的计算效率。

数据集最近研究